一、技术演进背景:从多模态拼接到原生融合 传统多模态AI系统普遍采用”分模态训练+后期融合”的架构设计,例如分别训练视觉模型、语言模型和音频模型,再通过特征拼接或注意力机制实现跨模态交互。这种方案存在三个……