一、技术原理:视觉大模型与多模态理解的底层逻辑 1.1 视觉大模型的核心架构 视觉大模型(Vision Large Model, VLM)以Transformer架构为基础,通过自监督学习(如MAE、SimMIM)或对比学习(如CLIP)预训练,构建……