一、现象观察:当文字披上图像外衣 在人工智能技术快速发展的当下,视觉语言模型(VLM)已成为多模态交互的核心载体。这类模型在处理纯文本输入时展现出惊人的理解能力,但当相同文字以图像形式呈现时,其性能却出……