一、现象观察:当文字穿上”图像外衣”在某主流视觉语言模型的测试中,研究人员发现一个反直觉现象:当输入”2024年奥运会将在巴黎举行”的纯文本时,模型能准确回答相关问题;但将同样内容制成图片输入后,正确率骤降……