一、多模态预训练技术背景与发展脉络 多模态预训练大模型通过整合文本、图像、语音、视频等多种模态数据,构建跨模态语义理解能力,其发展可划分为三个阶段: 单模态预训练阶段(2018-2020):以BERT、GPT为代表……