一、多模态大模型的技术演进与核心突破 视觉多模态大模型的爆发式发展源于三大技术支柱的突破:首先是跨模态表征学习框架的成熟,通过对比学习、掩码建模等技术,实现了视觉、语言、语音等异构数据的统一语义空间……