一、评测背景:多模态模型的”语言幻觉”困境 过去12个月,大模型在文本生成、逻辑推理等任务中展现出惊人能力,部分系统已能通过专业领域考试。然而,当涉及需要视觉感知的任务时,模型却频繁暴露出”语言幻觉”问题—……