一、技术背景与研发动机 在人工智能多模态交互领域,视觉-语言模型(VLMs)虽已实现图像描述生成、视觉问答等基础能力,但在复杂空间关系的理解与推理上仍存在显著瓶颈。例如,当模型需要判断”将红色箱子从客厅东……