一、Agent评测的特殊性:动态系统带来的挑战 传统模型评测聚焦于输入输出的静态映射关系,而Agent评测需要面对动态决策系统的复杂性。这类系统在开放环境中需持续感知环境状态、调整策略并执行动作,其核心挑战体……