一、多智能体强化学习的研究背景 1.1 传统强化学习的局限性 传统单智能体强化学习(RL)通过与环境交互学习最优策略,在围棋、机器人控制等领域取得突破。但其核心假设是环境状态完全可观测且决策独立,这一前提在……