多模态模型新基准：All-Angles Bench如何重塑3D场景理解评估

传统多模态基准测试多聚焦于2D图像与文本的单一对应关系，而真实场景中的3D空间理解需要模型具备跨视角推理能力。例如，在自动驾驶场景中，模型需通过不同角度的摄像头画面，准确判断行人与车辆的空间位置关系；在工业质检场景中，需从多角度图像中识别零件缺陷的完整形态。

All-Angles Bench基准的提出，标志着评估体系从”静态单视角”向”动态多视角”的范式转变。该基准包含2100组人工标注数据，覆盖90个真实场景，通过六大核心任务构建起完整的3D理解能力评估矩阵：

这种设计突破了传统测试仅关注单视角语义理解的局限，首次将模型的空间推理能力纳入评估范畴。测试数据显示，参与评估的27个主流模型在这些任务上的平均得分均未达到及格线，暴露出多模态模型在3D空间理解方面的系统性缺陷。

研究团队从EGO4D-EXO和EgoHumans两个大型数据集中精选90个多视角场景，这些场景涵盖室内外环境，包含动态（如人物移动）和静态（如家具摆放）两类对象。每个场景需满足：

例如在”厨房操作”场景中，包含灶台、水槽、冰箱等物体，从不同角度拍摄可形成12组有效视角数据。这种设计确保测试数据既能覆盖常见场景，又包含足够的变化维度。

研究团队开发了自动化问题生成系统，该系统包含：

以相对方向任务为例，系统可自动生成：”从视角2观察，冰箱位于微波炉的什么方向？”这样的问题。通过交叉验证不同视角下的答案一致性，确保测试问题的有效性。

采用三阶段标注流程：

例如在物体操作任务中，初始问题”如果移动椅子，桌子会怎样？”经过精修变为”将视角1中的蓝色椅子向右移动0.5米后，木质桌子与椅子的距离变化是多少？”，显著提升了问题的可测试性。

测试覆盖27个主流模型，包括闭源商业模型和开源模型。在六大任务中：

值得关注的是，某参数规模达千亿的闭源模型在计数任务中出现严重偏差，将同一场景中不同视角的物体重复计数，导致误差率高达47%。

通过错误分析发现三类共性问题：

例如在”书房场景”测试中，当书架从左侧视角移动到右侧视角时，多数模型错误地认为书桌上的台灯位置也发生改变，暴露出空间锚定能力的不足。

基于测试结果，开发者可重点优化：

某研究团队通过在模型中加入显式的3D坐标映射层，使相对距离任务的准确率提升了21个百分点，验证了空间表示优化的有效性。

All-Angles Bench的提出标志着多模态评估进入3.0时代。其影响体现在三个方面：

据行业调研显示，已有超过60%的AI研发团队将该基准纳入模型评估体系。某云服务商的智能视觉平台已基于该基准优化其3D重建服务，使工业质检场景的缺陷识别准确率提升至92%。

该基准的持续演进将推动多模态技术向真实场景深度渗透。未来版本计划增加动态场景测试和实时推理要求，这将对模型的计算效率和空间记忆能力提出更高挑战。开发者需持续关注空间表示学习、跨模态对齐等关键技术的发展动态，以应对不断升级的评估标准。