一、传统LLM评估的局限性:从单一Prompt到系统化工程 早期大语言模型(LLM)的评估方式高度依赖”Prompt-Response”对,例如通过询问”西红柿炒鸡蛋怎么做”并验证回答是否包含关键步骤(如”先炒蛋后炒西红柿”)。这种……