大模型评估体系：Perplexity、BLEU与人工评估实践 - 云主机网

最新文章

大模型评估体系：Perplexity、BLEU与人工评估实践

一、Perplexity：语言模型概率分布的量化指标 Perplexity（困惑度）是衡量语言模型预测能力的核心指标，其本质是模型对测试集数据的”困惑程度”的数学表达。计算公式为：PPL(D)=exp(−1∣D∣∑<em>i=1∣D∣logp(wi∣……

2026年1月4日互联网