一、自博弈:LLM进化的新动力源 传统LLM训练依赖人类标注数据与固定任务集,存在数据覆盖率不足、任务场景单一等瓶颈。自博弈(Self-Play)机制通过让模型同时扮演”生成者”与”评判者”角色,在无外部干预下构建动态……