一、多模态大模型的技术演进与挑战 传统多模态模型普遍采用”分模态预处理+跨模态对齐”的架构设计,例如将图像通过CNN提取特征向量,语音通过MFCC或梅尔频谱转换为声学特征,文本通过BERT编码为语义向量,再通过投……