一、传统评估体系的局限性:为何需要WorFBench? 当前智能体工作流评估面临三大核心痛点: 场景覆盖不足:主流评估方案多聚焦单一任务类型(如对话生成),难以覆盖跨领域、多节点的复杂工作流场景。例如,某行……