一、多模态文档理解的计算优化挑战 在OCR票据识别、合同解析等场景中,文档图像往往包含大量非文本区域(如背景纹理、装饰元素),这些冗余信息会显著增加视觉编码器的计算负载。以A4规格扫描件为例,直接分割为28……