AIApe问答机器人Scrum Meeting 4.23复盘与优化

一、会议背景与核心目标

本次Scrum Meeting聚焦AIApe问答机器人（一款基于自然语言处理技术的智能问答系统）的迭代开发，旨在通过敏捷开发模式快速响应需求变化、解决技术瓶颈并优化用户体验。会议核心目标包括：

同步当前迭代（Sprint 4）的进度与风险；
明确下一阶段（Sprint 5）的需求优先级；
针对用户反馈的响应延迟、意图识别偏差等问题制定技术优化方案。

二、Sprint 4进度与问题复盘

1. 已完成功能与数据表现

功能交付：完成多轮对话上下文管理模块开发，支持用户历史提问的语义关联（如用户先问“北京天气”，再追问“明天呢？”时，系统可自动关联前序问题）。
性能指标：
- 意图识别准确率：87%（较上一版本提升3%）；
- 平均响应时间：1.2秒（目标为≤1秒，未达标）；
- 用户满意度评分：4.1/5（主要扣分项为响应速度）。

2. 关键问题与根因分析

问题1：响应延迟超标
- 根因：
  - 模型推理阶段占用CPU资源过高，导致并发请求排队；
  - 第三方NLP服务（用于意图分类）的API调用存在网络抖动。
- 影响：高峰时段（如每日1000）约15%的请求响应时间超过2秒。
问题2：多轮对话容错性不足
- 根因：上下文管理模块未处理用户中途切换主题的场景（如用户从“天气”跳转到“股票”后，系统仍尝试关联前序天气问题）。
- 影响：约8%的用户在多轮对话中遇到逻辑混乱的回答。

三、Sprint 5需求优先级与技术方案

1. 需求优先级排序（MoSCoW法则）

优先级	需求类型	具体内容	技术关键点
Must	性能优化	响应时间≤1秒	模型轻量化、服务异步化
Should	多轮对话容错改进	支持主题切换时的上下文重置	上下文状态机设计
Could	增加行业知识库	接入金融、医疗领域垂直问答数据	知识图谱构建与动态加载
Won’t	语音交互功能	暂不开发，聚焦文本交互优化	-

2. 技术实现方案

（1）响应时间优化

模型轻量化：

将原始BERT-base模型（参数量1.1亿）替换为DistilBERT（参数量6600万），推理速度提升40%；

使用量化技术（INT8精度）进一步减少模型体积，内存占用降低50%。

# 示例：使用HuggingFace Transformers加载量化模型
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", torch_dtype="auto")
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

服务异步化：
- 将意图分类、实体识别等NLP任务拆分为独立微服务，通过消息队列（如Kafka）解耦请求处理；
- 设置超时机制（如API调用超时阈值800ms），避免单点故障阻塞整体流程。

（2）多轮对话容错改进

上下文状态机设计：
- 定义对话状态（如INIT、ONGOING、SWITCH_TOPIC），当用户提问与当前主题语义相似度低于阈值（如0.3）时，自动切换至INIT状态并重置上下文。
```
graph TD
A[用户提问] --> B{语义相似度>0.3?}
B -- 是 --> C[关联上下文]
B -- 否 --> D[重置上下文]
C --> E[生成回答]
D --> E
```

四、测试策略与风险控制

1. 测试用例设计

性能测试：模拟100并发用户，验证95%请求响应时间≤1秒；
容错测试：构造主题切换、口语化表达（如“那个啥”）等边缘案例，检查系统鲁棒性；
A/B测试：对比DistilBERT与原始模型的准确率差异（允许≤2%的精度损失）。

2. 风险应对计划

风险1：量化模型精度下降
- 应对措施：保留原始模型作为备用，若量化模型准确率<85%则自动回滚。
风险2：第三方服务不可用
- 应对措施：接入两个独立NLP服务提供商，通过负载均衡动态切换。

五、敏捷开发最佳实践总结

小步快跑：将大需求拆解为2-3天的可交付任务（如“完成DistilBERT模型替换”），降低迭代风险；
数据驱动决策：通过埋点收集用户行为数据（如点击率、退出率），优先优化高频痛点；
自动化护航：使用CI/CD流水线实现代码自动测试与部署，确保每次提交均可快速验证。

六、后续行动项

负责人	任务	截止时间
张三	完成DistilBERT模型替换与测试	2024.4.25
李四	设计上下文状态机并实现原型	2024.4.26
王五	搭建性能测试环境	2024.4.27

本次Scrum Meeting明确了以性能优化为核心的技术路径，通过模型轻量化、服务异步化等手段解决响应延迟问题，同时通过上下文状态机设计提升多轮对话的容错性。后续需重点关注量化模型的精度验证与第三方服务的冗余设计，确保系统在高并发场景下的稳定性。