一、技术背景:为何选择深度强化学习? 传统聊天机器人多采用基于规则的模板匹配或监督学习模型,存在两大核心痛点:其一,规则系统难以覆盖复杂语义场景,维护成本随规则数量指数级增长;其二,监督学习模型依赖……