通用智能体新基准:SkillsBench如何量化评估跨任务能力? 在通用人工智能(AGI)研发领域,如何客观评估智能体的跨任务能力始终是核心挑战。传统评估体系往往聚焦单一任务场景,难以衡量智能体在复杂环境中的技能……