多模态认知鸿沟：视觉语言模型处理图文信息的性能差异研究 - 云主机网

最新文章

多模态认知鸿沟：视觉语言模型处理图文信息的性能差异研究

一、现象观察：当文字穿上”图像外衣”在某主流视觉语言模型的测试中，研究人员发现一个反直觉现象：当输入”2024年奥运会将在巴黎举行”的纯文本时，模型能准确回答相关问题；但将同样内容制成图片输入后，正确率骤降……

2026年3月14日互联网