一、多模态大模型的核心技术演进 多模态大模型的核心在于通过统一架构实现文本、图像、音频、视频等异构数据的联合建模。早期技术方案多采用”分模态处理+后期融合”的管道式架构,例如分别训练视觉编码器和语言模型……