引言 随着人工智能技术的快速发展,智能问答系统已从单一文本交互逐步向多模态交互演进,融合语音、图像、视频等多种输入输出形式,旨在提供更自然、高效的用户体验。然而,多模态交互并非“完美方案”,其技术复杂……