一、多页文档理解的技术挑战与框架演进

在学术文献分析、法律文书处理等场景中，多页文档理解面临两大核心挑战：其一，需从数十页文档中精准筛选3-5个关键证据页，避免信息过载；其二，需在证据检索与答案生成间建立动态平衡机制，防止单一环节优化导致整体性能下降。传统GRPO（Generative Reinforcement Learning with Policy Optimization）框架因采用端到端生成模式，在处理多页文档时存在显著局限性：其奖励函数仅关注最终答案准确性，忽视证据检索质量，导致模型倾向于标注大量无关页面以获取虚假高准确率。

针对上述问题，EviGRPO框架创新性引入分层处理机制：首先通过全局文档编码器构建页面级语义图谱，利用图神经网络识别潜在证据链；再通过局部注意力机制聚焦关键证据页，最终基于检索到的证据生成结构化答案。这种设计使模型在ArxivFullQA测试集上的F1分数提升27%，尤其在需要跨页推理的流程类问题中表现突出。

二、三维奖励函数设计原理

EviGRPO采用复合奖励机制，通过格式一致性、答案准确性、证据页准确性三个维度的加权组合，引导模型优化方向：

1. 格式一致性奖励（0/1二元奖励）

该奖励强制模型输出遵循”推理过程→证据页→最终答案”的三段式结构，每部分需包含特定标识符。例如在学术论文理解场景中，推理过程需明确标注”根据第3.2节公式(5)推导”，证据页需包含”证据页:Page12,Paragraph3”等元信息。这种结构化输出设计使后续解析效率提升40%，特别适用于需要可解释性的金融、医疗等监管严格领域。

2. 答案准确性奖励（ANLS指标）

采用Average Normalized Levenshtein Similarity（平均归一化莱文斯坦相似度）替代传统精确匹配，该指标通过计算编辑距离并归一化处理，能更好处理学术文档中常见的同义词替换、公式变形等情况。例如对于答案”使用L2正则化”与”采用权重衰减”，ANLS得分可达0.85，而精确匹配得分为0。在实际训练中，该奖励权重设置为0.6，有效平衡了严格匹配与语义相似性。

3. 证据页准确性奖励（F1-style指标）

设计包含精确率（预测证据页中真实相关页占比）与召回率（真实证据页被预测出的占比）的调和平均指标，避免模型通过标注大量页面获取高召回率。具体计算公式为：

F1_evidence = 2 * (precision * recall) / (precision + recall + ε)

其中ε=1e-6防止除零错误。在ArxivFullQA测试中，该指标与最终答案准确性的皮尔逊相关系数达0.78，验证了证据检索质量对答案生成的关键影响。

三、数据工程实践：从生成到验证的闭环

构建高质量训练数据需解决两大矛盾：人工标注成本高与模型冷启动数据需求大的矛盾。EviGRPO采用两阶段数据工程方案：

1. 初始数据生成阶段

使用某70亿参数多模态大模型，输入文档与任务提示（如”请总结该论文的实验结论”），生成包含推理链、证据页、答案的完整标注。该阶段通过三个质量控制机制提升数据质量：

动态提示工程：根据文档类型自动调整提示模板，学术文档采用”背景→方法→结果”结构化提示
多轮验证采样：对同一文档生成3个候选标注，选择ANLS差异最小的两个作为训练样本
噪声过滤：移除推理链长度小于50字符或证据页占比超过30%的异常样本

2. 数据验证阶段

设计模型自验证机制，将生成数据输入同一模型进行交叉验证，仅保留两次输出一致的样本。该策略使数据准确率从初始的68%提升至92%，特别在动机类、结果类等主观性问题上效果显著。验证阶段采用置信度阈值控制，当模型对两次输出的预测概率差值小于0.15时，自动触发人工复核流程。

3. 专用评估基准构建

针对学术论文理解场景构建ArxivFullQA基准，包含8.6k个高质量问答对，具有三大特色：

输入格式优化：采用LaTeX源码而非渲染图像作为输入，保留数学公式、参考文献等结构化信息
问题类型覆盖：设计7类问题模板，其中流程类问题占比25%，要求模型理解实验步骤间的逻辑关系
跨模态处理：包含30%的图表理解问题，需模型解析图表标题、坐标轴标签等元信息

四、训练策略优化实践

1. 模型初始化选择

选用某70亿参数视觉语言指令微调模型作为基础，该模型已通过200万条指令数据预训练，具备：

基础推理能力：可处理简单的因果关系推理
多模态理解：能解析图表、公式等学术元素
格式遵循能力：输出自动包含段落分隔符等结构标记

相比从零训练，该策略使训练收敛速度提升3倍，GPU资源消耗降低60%。

2. 两阶段课程学习

设计渐进式训练方案：

单页热身阶段：使用EviBench单页样本训练1个epoch，重点优化输出格式规范性与基础推理逻辑。此时冻结文档编码器参数，仅微调答案生成头。
多页强化阶段：引入多页样本训练，逐步解冻图神经网络参数。采用动态难度调整策略，初始设置证据页检索范围为前5页，每1000步扩展2页，最终覆盖全文档。

3. 强化学习优化技巧

奖励塑形（Reward Shaping）：在训练初期对格式奖励赋予更高权重（0.7），逐步过渡到三维奖励均衡（0.4:0.4:0.2）
经验回放：维护优先级采样缓冲区，优先回放证据页F1分数低于0.5的样本
熵正则化：在策略梯度更新中添加0.01的熵系数，防止模型过早收敛到次优解

五、应用场景与性能表现

在学术论文理解场景中，EviGRPO框架展现出显著优势：

事实类问题：ANLS得分0.92，较基线模型提升18%
流程类问题：推理链完整度达0.85，能准确识别实验步骤间的依赖关系
跨页推理：在长达20页的文档中，证据检索召回率保持0.78以上

该框架已成功应用于某科研文献分析平台，日均处理5万篇学术论文，答案生成延迟控制在1.2秒内，满足实时分析需求。未来工作将探索引入外部知识库增强模型推理能力，并优化奖励函数以处理更复杂的比较类问题。

多页文档强化学习框架设计：EviGRPO奖励机制与数据工程实践