一、传统MDP框架的局限性 马尔可夫决策过程(MDP)作为强化学习的数学基础,其核心假设是”状态转移仅依赖当前状态和动作”。这种建模方式在简单环境中表现良好,但在复杂场景下存在三个显著缺陷: 长程依赖缺失:……