一、生成式对话模型的问答效能评估体系 1.1 核心评估指标构建 生成式对话模型的效能评估需覆盖语义理解、响应生成、上下文跟踪三个维度。语义理解准确率可通过人工标注测试集(覆盖200+行业场景)计算模型对用户意……