一、技术背景与问题定位 离线多智能体强化学习(Offline MARL)因无需环境交互的特性,在工业控制、机器人集群等高成本或高风险场景中具有重要价值。然而,传统离线学习方法面临两大核心挑战: 策略外推误差(Ext……