一、背景:多智能体架构的局限性 在复杂任务场景中,多智能体强化学习(MARL)曾被视为解决分布式决策问题的主流方案。其通过多个独立智能体协作完成目标,看似天然适配高并发、多目标的场景,但实际应用中暴露出……