一、技术背景与核心价值 多模态交互已成为人工智能应用的重要趋势,将自然语言处理(NLP)与计算机视觉(CV)技术结合,能够提供更丰富的交互体验。在社交场景中,用户既需要基于文本的智能对话,也期待通过文字描……