一、技术背景:从传统强化学习到深度进化融合 传统强化学习(RL)通过智能体与环境的交互实现策略优化,但存在两大局限:其一,策略更新依赖预设的奖励函数,难以适应动态环境;其二,缺乏对生物进化中“遗传-变异-……