一、大模型人工评测的必要性 在生成式AI技术快速迭代的背景下,大模型的能力边界持续扩展,从文本生成、多模态理解到复杂逻辑推理,应用场景呈现指数级增长。然而,自动化评测指标(如BLEU、ROUGE)在语义理解、逻……