360在ICDAR 2025文档分析与识别领域顶级赛事中斩获佳绩-CSDN博客

本文链接：https://blog.csdn.net/qihoo_tech/article/details/148023924

在数字化转型加速的今天，文档分析与识别技术的重要性日益凸显。作为该领域的顶级会议，ICDAR 2025（International Conference on Document Analysis and Recognition）将于2025年9月16日至21日在中国武汉举办，吸引了全球众多顶尖团队参与。

360人工智能研究院知识图谱与文档理解团队在此次竞赛中表现卓越，分别在“中国高考试卷理解”、“端到端文档图像机器翻译”两项赛事中斩获季军和亚军。

1、中国高考试卷理解竞赛-季军

为了提升并评估多模态大模型（MLLMs）在教育领域应用的有效性，2025年ICDAR中文高考试卷理解竞赛（ICDAR 2025 Competition on Understanding Chinese College Entrance Exam Papers），引入了一个名为CEP-7K的数据集，其中包含7000对来自不同学科的过往中文高考试卷中的问题及答案。

鉴于这些试卷的独特特点，这些问题的设计旨在通过要求以阿拉伯数字或从多个预定义选项中选择答案的形式，来评估MLLMs对文档的理解能力。

这个任务的难点在于，需要准确识别、定位和解释文档中的复杂元素，如图表和表格，而现有的多模态大模型（MLLMs）在处理中文文档时表现不佳，尤其是在理解复杂布局方面。

为了克服这些难题，360人工智能研究院知识图谱与文档理解团队，创新性地引入引入Hyper Attention Transformer Block（HATB）来优化跨注意力机制，以实现高效的多模态融合，并采用随机选择（RS）策略，有效缓解了图像序列长度和图像分辨率之间的权衡，最终获得第三名。

2、端到端文档图像机器翻译竞赛—亚军

ICDAR 2025"面向复杂布局的端到端文档图像机器翻译"(ICDAR 2025 Competition on End-to-End Document Image Machine TranslationTowards Complex Layouts)竞赛，以英文文档图像为输入，并要求将其翻译成中文。

在OCR-free(Translation-LLM)赛道中，需要使用包含超过10亿个参数的大模型 (LLM) 来实现OCR-Free情况下，处理复杂的布局和长上下文，输出准确翻译。

这类任务的难点在于，需要处理复杂布局的文档图像、提高模型的鲁棒性和泛化能力。

为了解决这类问题，360人工智能研究院知识图谱与文档理解团队，采用基于多模态大模型进行微调的方式进行。为了提高模型的鲁棒性和泛化能力，采用对抗性训练方法，包括投影梯度下降（PGD）和快速梯度方法（FGM），对视觉编码器进行对抗性训练。最终，排名第二，验证了这种方法在处理复杂布局文档图像方面的有效性。