一、技术背景:LLM+RL融合的三大核心挑战 当前主流的LLM+RL(语言模型与强化学习结合)方案面临三大瓶颈:状态表示冗余、奖励信号稀疏、训练效率低下。传统方法直接将文本嵌入作为状态输入,导致状态空间爆炸式增……