从MDP到Decision Transformer：序列决策的Transformer化探索 - 云主机网

最新文章

从MDP到Decision Transformer：序列决策的Transformer化探索

一、传统MDP框架的局限性马尔可夫决策过程（MDP）作为强化学习的数学基础，其核心假设是”状态转移仅依赖当前状态和动作”。这种建模方式在简单环境中表现良好，但在复杂场景下存在三个显著缺陷：长程依赖缺失：……

2026年1月8日互联网