一、技术背景:多模态大模型的演进与挑战 随着视觉-语言(VL)任务的复杂度提升,传统模型在处理混合模态数据时面临三大瓶颈:跨模态对齐精度不足(如图文匹配误差)、垂直场景泛化能力弱(如复杂公式识别)、长文……