一、多模态AI识图的现状与痛点 在计算机视觉与自然语言处理(NLP)的交叉领域,多模态模型已成为实现“AI理解世界”的核心技术。传统模型(如CLIP、ViT)通过图文对齐实现基础识图功能,但存在两大瓶颈:其一,模型……