一、传统强化学习的效率困局 在复杂决策场景中,智能体需要与环境进行数万次交互才能收敛到有效策略。以Web导航任务为例,智能体在探索阶段会产生大量冗余轨迹:反复点击无效链接、重复执行相同操作序列、在已完成……