一、技术背景:从单模态到多模态指令交互的演进 传统视觉理解系统主要依赖预定义的分类标签或简单描述完成任务,例如通过目标检测框定位物体或用固定模板生成图像描述。这类方法在标准化场景中表现稳定,但面对复……