一、多模态预训练的范式革新:从单模态到跨模态对齐 传统多模态预训练模型(如行业常见的视觉-语言联合模型)通常采用分阶段训练策略,即先独立训练视觉编码器(如ResNet、ViT)和语言编码器(如BERT),再通过对……