一、LLM应用评估的演进与核心挑战 随着大语言模型(LLM)在对话系统、知识检索和智能体领域的深度应用,传统评估方法已难以满足复杂场景需求。早期基于准确率、BLEU等指标的评估体系,主要针对输出格式固定、答案……