引言 多模态大模型(Multimodal Large Language Models, MLLMs)通过整合文本、图像、音频、视频等多模态数据,突破了传统单模态模型的认知边界,成为人工智能领域的研究热点。其核心挑战在于如何设计高效的预训练……