背景与挑战 在人工智能蓬勃发展的当下,基于Transformer架构的多模态视觉理解大模型(VLM)成为研究热点。这类模型创新性地将语言与视觉模态深度融合,不仅能精准识别图像,还可依据视觉输入进行动态内容推理与复……