一、传统多模态模型的「对讲机困境」 在传统多模态模型架构中,视觉、听觉与语言模块采用串行处理机制,形成典型的「半双工」交互模式。这种设计导致模型在输出响应时必须暂停感知输入,如同使用对讲机通信时需按……