2023年5月12日,中国图象图形大会(CCIG 2023)(简称“大会”)在苏州圆满开幕。本届大会以“图象图形·向未来”为主题,由中国科学技术协会指导,中国图象图形学学会主办,会议期间,中国图象图形学学会文档图像分析与识别专委会与上海合合信息科技股份有限公司联合组织的“文档图像智能分析与处理”技术论坛在5月13日下午成功召开。
图 1 金连文教授主持CCIG 2023文档图像智能分析与处理技术论坛
CCIG 2023文档图像智能分析与处理技术论坛由华南理工大学教授、中国图象图形学学会常务理事金连文主持。论坛邀请了中科院自动化所、北大、中科大的学术专家,华为、合合信息等知名企业的技术专家,围绕文档图像处理的前沿技术展开“头脑风暴”,寻找人工智能大模型时代文档图像处理领域的未来技术发展方向。
图 2 刘成林研究员作题为《人工智能大模型时代的文档识别与理解》的特邀报告
中国科学院自动化研究所副所长刘成林带来了题为《人工智能大模型时代的文档识别与理解》的特邀报告,对文档识别技术现状进行了简要回顾,分析现有技术的不足,并提出人工智能大模型时代新的研究问题和方向。报告指出,近年来,得益于深度学习方法的发展,文档识别性能快速提升,在文档数字化、票据处理、笔迹录入、智能交通、信息检索等领域得到广泛应用。然而,现有技术在识别精度和可靠性、可解释性、自适应性等方面还有明显不足,还有很多技术问题有待解决。另一方面,人工智能大模型的快速发展促使人们重新思考文档识别领域今后的发展方向,除了解决识别层次的遗留问题,还需要面向文档语义理解和应用,在语义信息抽取和决策层面开展研究。
图 3 邹月娴教授作题为《视觉-语言预训练模型及迁移学习方法》特邀报告
北京大学邹月娴教授带来了题为《视觉-语言预训练模型及迁移学习方法》的特邀报告,展现了基于大规模文本数据、Transformer和无监督预训练技术的ChatGPT的技术发展情况,展示了机器智能的能力和可用性。同时,报告还简要分析了ChatGPT的技术能力与局限性,介绍视觉-语言预训练模型及迁移学习的前沿研究成果,分享团队在视频文本预训练(VLP)和语言视频定位(Visual Grounding)任务的研究进展。
图 4 谢洪涛教授作题为《篡改文本图像的生成与检测》特邀报告
中科大教授谢洪涛带来了题为《篡改文本图像的生成与检测》的特邀报告,从篡改文本图像的生成与检测两个方面进行讲述,通过探索篡改文本的生成网络结构、篡改文本检测的频域信息联合优化等方向,实现篡改文本生成与检测的矛与盾的研究。针对文本生成中复杂字型篡改痕迹明显的问题和篡改文本检测中局部纹理真伪性难以判别的问题,谢洪涛提出了一种可以在真实场景文本图像上训练的文本生成算法和基于并行空域与频域特征感知的篡改文本检测算法。最后,报告对如何进一步提升篡改文本生成与检测的性能进行了展望。
图 5 廖明辉博士就《华为云OCR技术进展与行业应用》报告进行分享
华为AI研究员廖明辉博士带来了《华为云OCR技术进展与行业应用》报告分享。介绍了华为云在OCR技术上的研究进展以及华为云在OCR行业的实践,包括文字识别自监督预训练模型的研究进展及其在金融行业的应用、华为云OCR服务产品介绍等。
图 6 丁凯博士就《智能文档处理技术在工业界的应用与挑战》报告进行分享
上海合合信息科技股份有限公司智能技术平台事业部副总经理、高级工程师丁凯博士带来了《智能文档处理技术在工业界的应用与挑战》报告分享。报告指出,深度学习技术出现以后,智能文档处理的各项技术均取得了突破性的进展,在工业界场景中却仍然面临着大量的问题和挑战,例如文档图像中的形变/弯曲及光照影响、文档篡改检测、复杂文档图像的版式还原,以及各种复杂场景下的文档的识别与理解难题。本报告主要介绍了合合信息依托自研的TextIn智能文字识别服务平台,在解决工业界中面临的各类问题中所做一些相关工作进展和研究成果,并探讨当前工业界中面临的一些关键技术难题和挑战。
图 7 圆桌讨论环节
在圆桌讨论环节,围绕大模型与文档处理开展相关讨论,各位学者都发表了相关看法并进行了深入探讨。中国科学院自动化研究所副所长刘成林表述从识别性能来说,场景文本、逻辑版面、文档问答方面性能不足,有很多工作可以做。未来充分运用大模型能力。即使文档识别精度很高,但是大模型的可解释性、安全度仍然十分重要。北京大学邹月娴教授表述了从技术路线来说,专业化大规模的预训练模型是可行的。中科大教授谢洪涛教师表述大模型结合OCR、海量数据、理解能力很强,OCR结果对模型有很大支持作用。华为AI研究员廖明辉提出企业作为文档图像处理的应用方,普遍面临的挑战:当有众多API时,维护难度较高,急需一个垂直领域的通用的OCR大模型,能够覆盖所有的使用场景。合合信息高级工程师丁凯表述需要思考,在大模型背景下下,OCR的“智能涌现”将带来什么。
本次论坛的活动现场学术氛围浓厚,报告内容新颖、覆盖面广。针对智能文档处理的技术路线及发展各位学者进行了深入探讨,在提问环节上,参会人员更是针对自己感兴趣的内容踊跃提问及发表个人见解,专家们则耐心地一一解答,极大地拓展了参会师生们的眼界和科研思路。论坛在参会师生与专家们的热烈交流中宣告结束。