一、技术突破背景:多模态融合的范式革命 传统多模态大模型普遍采用”语言中心主义”架构,通过将图像、语音等非文本数据转换为文本描述或特征向量,再输入语言模型进行处理。这种拼凑式方案存在三大核心缺陷: 语……