一、传统评估体系的认知困境:当AI Agent突破”填空题”边界 在LLM(大语言模型)时代,评估体系多聚焦于文本生成质量,采用预设答案匹配的静态评分机制。但AI Agent的诞生彻底改变了这一范式——其核心特征在于具备环……