一、技术背景:多模态交互的迫切需求 在数字化转型浪潮中,人机交互正从单一文本向多模态融合演进。传统视觉模型仅能识别图像内容,语言模型仅能处理文本逻辑,而真实场景中用户需求往往需要同时理解视觉信息、文……