一、问题溯源:多模态大模型的“视觉幻觉”现象 在ECCV 2024的研讨中,多模态大模型(如视觉-语言模型)的“视觉幻觉”问题成为焦点。这类模型在处理图像时,常因过度依赖预训练的文本知识而生成与视觉内容不符的描述……