在强化学习领域,离线学习(Offline Reinforcement Learning)凭借其无需实时环境交互的特性,成为工业场景中解决决策优化问题的关键技术。然而,传统序列生成方法在处理复杂长程任务时,往往陷入”局部描摹”的困境……