一、多模态大模型OCR任务的挑战与现状
多模态大模型(LVLMs)的设计初衷是解决通用场景下的跨模态任务,例如图像描述生成、视觉问答等。然而,当这类模型被直接应用于OCR(光学字符识别)任务时,其表现往往难以达到预期。原因在于,OCR任务对文本定位、字符识别和结构解析的精度要求极高,而通用模型在训练过程中可能未充分覆盖特定领域的复杂场景(如印章文本、多层表头表格)。
与通用模型形成对比的是,专家OCR模型通过在特定领域数据集上的深度优化,能够显著降低幻觉(Hallucination)风险。例如,某行业常见技术方案中的印章识别模型,通过引入低幻觉设计,可准确识别印章中的弧形文本和复杂排版。但这类模型的局限性在于泛化能力较弱,难以适应多语言、多结构的混合场景。
二、“再看一眼”机制:从单次识别到迭代优化
为解决上述矛盾,研究团队提出了“再看一眼”(Re-examination)机制,并通过DianJin-OCR-R1模型验证其有效性。该机制的核心流程如下:
1. 初始识别:调用自身OCR能力
模型首先对输入图像进行基础识别,提取文本内容、位置和结构信息。例如,在印章识别场景中,模型需定位印章的边界、识别弧形排列的文本,并区分印章类型(如公章、私章)。
2. 引入专家模型作为参考
为弥补通用模型的不足,DianJin-OCR-R1会调用外部专家模型或工具生成参考结果。例如:
- 表格识别:使用某专家表格解析模型识别单元格合并(colspan/rowspan)和多层表头;
- 公式识别:通过某行业常见LaTeX生成工具将公式图像转换为结构化代码;
- 印章文本:依赖适配印章识别的专家VLM模型提取弧形文本。
3. 综合分析与反思
模型将自身识别结果与专家参考结果进行对比,通过以下方式减少幻觉:
- 冲突检测:若自身结果与专家结果存在显著差异(如字符错误率超过阈值),触发重新识别;
- 上下文校验:结合图像全局信息(如背景、字体风格)验证局部识别的合理性;
- 迭代优化:对高风险区域(如模糊文本、重叠字符)进行多次采样和投票。
4. 输出结构化结果
最终输出需满足不同场景的格式要求:
- 表格:生成包含合并单元格标记的HTML代码,确保结构与图像完全一致;
- 公式:输出LaTeX代码并附带语义标注(如“分子”“分母”);
- 印章文本:返回文本内容及其在印章中的相对位置(如角度、半径)。
三、数据构建:推理链与结构化样本
为训练“再看一眼”机制,研究团队构建了包含推理过程和正确结果的结构化数据集。核心步骤如下:
1. 推理链生成
选用某行业常见大模型作为推理链生成器,模拟人类识别图像时的思考过程。例如,针对一张包含复杂表格的图像,生成器会输出以下推理步骤:
1. 定位表格边界;2. 识别表头行并解析多层结构;3. 逐行扫描单元格,检测合并标记;4. 对比专家模型结果,修正错误合并。
生成的推理链用<answer></answer>标签包裹,作为模型训练的中间监督信号。
2. 数据集设计
研究团队使用了两个核心数据集:
- ReST数据集(ICDAR 2023印章标题识别竞赛):包含5000张训练图和5000张测试图(测试集无标注,仅用于验证)。数据覆盖中英文印章、不同字体风格和背景干扰;
- TabRecSet数据集:公开双语表格数据集,含38.1k表格(20.4k英文+17.7k中文),覆盖合并单元格、跨页表格等复杂结构。
3. 工具链适配
为支持多场景训练,研究团队整合了以下工具:
- 表格解析:某专家表格结构解析模型,支持colspan/rowspan识别;
- 内容提取:某行业常见LVLM模型,优化双语场景下的表格内容提取;
- 低幻觉OCR:某专家OCR模型,作为基准参考减少训练噪声。
四、实践效果与未来方向
在印章识别任务中,DianJin-OCR-R1通过“再看一眼”机制将字符错误率降低了37%,尤其在弧形文本和模糊印章场景中表现突出。在表格识别任务中,模型对合并单元格的识别准确率提升至92%,接近专家模型水平。
未来工作将聚焦以下方向:
- 轻量化部署:优化模型推理速度,支持边缘设备实时识别;
- 多模态融合:引入语音、触觉等模态信息,提升复杂场景下的鲁棒性;
- 动态数据生成:基于生成式模型自动构建包含极端案例的训练集。
通过“再看一眼”机制,多模态大模型在OCR任务中实现了从“可用”到“可靠”的关键跨越。这一思路不仅为幻觉缓解提供了新范式,也为通用模型与专家模型的协同进化指明了方向。