RAG框架下抽取式与生成式问答的融合实践

一、技术本质：两种问答范式的核心差异

抽取式问答（Extractive QA）基于”检索-匹配”逻辑，其核心在于从给定文档集合中定位与问题语义匹配的文本片段。典型实现依赖预训练模型（如BERT）计算问题与候选文本的相似度，通过滑动窗口或段落级匹配提取答案。例如在医疗问答场景中，系统需从数万份病历中精准定位”糖尿病患者的空腹血糖正常范围”这一具体数值。

生成式问答（Generative QA）则采用”理解-生成”路径，通过端到端模型（如GPT系列）直接生成自然语言回复。这种模式突破了源文本的物理边界，能整合多源信息形成连贯回答。在法律咨询场景中，系统可综合《民法典》条款与司法解释，生成”关于遗产继承的法定顺序说明”。

两种技术路线在实现机制上存在本质差异：抽取式更强调答案的客观性与可解释性，生成式侧重回复的流畅性与创造性。行业常见技术方案中，抽取式系统通常需要构建倒排索引和语义向量库，而生成式系统则依赖大规模预训练与微调。

二、RAG框架：融合两种范式的桥梁

RAG（Retrieval-Augmented Generation）通过检索模块与生成模块的协同，实现了两种技术的优势互补。其架构包含三个核心组件：

检索增强层：构建多级索引体系，包括关键词倒排索引、语义向量索引和知识图谱索引。以电商问答为例，系统可同时检索商品描述文本（结构化）、用户评价（半结构化）和FAQ知识库（非结构化）。

# 伪代码示例：多级索引检索
def multi_level_retrieval(query):
    keyword_results = inverted_index.search(query)
    semantic_results = vector_index.similarity_search(query)
    graph_results = knowledge_graph.traverse(query)
    return merge_results(keyword_results, semantic_results, graph_results)

上下文整合层：采用注意力机制对检索结果进行加权融合。某金融问答系统通过计算每个检索片段与问题的TF-IDF值和BERT嵌入相似度，动态调整各片段的权重系数。
生成控制层：在解码阶段引入约束生成策略。例如通过设置最大生成长度、禁止生成特定词汇（如”无法确定”），或采用分类器对生成结果进行可信度校验。

三、适用场景对比与选型建议

评估维度	抽取式问答	生成式问答	RAG融合方案
数据依赖性	严格依赖源文本覆盖度	可生成源文本未包含的信息	通过检索补充生成依据
回复准确性	高（直接引用原文）	中（存在事实错误风险）	通过检索验证提升准确性
领域适应性	需构建垂直领域索引	依赖领域数据微调	检索模块可快速适配新领域
计算资源消耗	中（索引构建阶段）	高（大模型推理）	平衡检索与生成的资源分配

选型建议：

事实核查类场景（如金融、医疗）优先采用抽取式或RAG方案，确保回复可追溯
创意生成类场景（如营销文案、智能客服）适合生成式方案，需配合人工审核
资源受限场景可采用轻量级RAG，如仅使用TF-IDF检索+小规模生成模型

四、性能优化实践

检索模块优化：
- 采用混合索引策略，结合BM25算法与语义向量
- 实现动态索引更新机制，支持实时知识注入
- 示例：某新闻问答系统通过增量更新索引，将热点事件响应时间从分钟级降至秒级

生成模块控制：

引入外部知识校验API，对生成结果进行事实核查
采用温度采样与top-k过滤，平衡回复多样性与可控性

代码示例：

# 生成控制示例
def controlled_generation(prompt, temperature=0.7, top_k=50):
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
   inputs.input_ids,
   temperature=temperature,
   top_k=top_k,
   max_length=100,
   do_sample=True
)
return tokenizer.decode(outputs[0])

端到端调优：
- 联合训练检索与生成模块，通过强化学习优化整体指标
- 建立多目标评估体系，同步监控准确率、流畅度与响应速度

五、未来演进方向

当前技术发展呈现三大趋势：

轻量化RAG：通过模型压缩技术将检索与生成模块部署到边缘设备
多模态融合：整合图像、音频等非文本信息的检索与生成能力
可控生成：发展更精细的生成控制机制，如情感导向、风格迁移

开发者在构建系统时，建议采用模块化设计，将检索、生成、校验等组件解耦，便于后续技术迭代。同时应建立完善的数据治理流程，确保检索库与训练数据的合规性与时效性。

在百度智能云等平台提供的AI开发环境中，开发者可利用预置的RAG开发套件，快速搭建包含向量数据库、大模型推理和评估体系的完整问答系统，显著降低技术门槛与开发周期。