一、多轮视觉对话的技术挑战与模型定位 在真实场景中,多轮视觉对话需同时处理动态视觉输入、历史对话上下文及复杂语义关联。传统视觉对话模型常面临三大痛点:视觉特征与语言特征的跨模态对齐困难、长对话中的上……