一、静态训练范式的失效:Web自动化为何困在”模拟器”里? 传统Web智能体训练体系长期依赖监督微调(SFT)与离线强化学习(Offline RL),其核心逻辑是通过预标注的轨迹数据构建决策模型。这种”背地图”式训练在实验……