蒸馏强化学习:从知识迁移到智能压缩的范式革新 一、技术背景与核心概念 在强化学习领域,传统算法(如Q-learning、Policy Gradient)面临两大核心挑战:一是高维状态空间下的样本效率问题,二是部署阶段对计算资……