一、多模态图像理解的技术演进与核心挑战 传统图像理解方案主要依赖单模态卷积神经网络(CNN),通过逐层特征提取实现目标检测、分类等任务。然而,这类方法在处理复杂场景时存在显著局限:一方面,纯视觉模型难以……