一、多轮交互LLM训练的核心挑战 在对话系统、游戏AI等需要多轮交互的场景中,LLM智能体面临两大核心困境: 稀疏奖励信号:多数交互轮次缺乏明确反馈(如用户满意度评分),仅在任务完成时获得单一奖励值。这种延……