一、技术背景:视觉语言模型的演进与核心能力 大规模预训练视觉语言模型(Vision-Language Model, VLM)通过联合学习图像与文本的语义关联,实现了跨模态信息的深度理解。其技术演进可分为三个阶段: 双塔架构阶……