一、项目背景与技术定位 在人工智能领域,多模态学习已成为突破单一模态能力边界的关键方向。传统视觉语言模型(VLM)常面临指令理解不足、复杂场景适应性差等问题,尤其在学术任务导向的数据集上表现受限。某顶尖……