一、评估任务全景:从基础能力到垂直领域 LLMs的评估任务体系已形成多层次结构,涵盖从底层语言能力到高层决策能力的完整链条。 1.1 基础语言能力评估 通用自然语言处理任务仍是评估基石,包括文本生成质量(流畅……