Decision Transformer:基于序列建模的强化学习新范式 强化学习(RL)作为机器学习的重要分支,长期面临样本效率低、训练不稳定等挑战。传统方法如Q-Learning、Policy Gradient等依赖环境反馈的即时奖励信号,在稀……