一、多模态对话技术演进与行业需求 传统对话系统长期依赖文本模态,在信息处理维度上存在显著局限。当用户上传一张包含多个物体的图片并询问”这张照片适合作为什么场景的背景?”时,纯文本模型无法解析视觉信息,……