RAG检索策略全解析：从BM25到Embedding与Reranker的进阶之路

大型语言模型（LLM）虽具备强大的语言生成能力，但其知识边界受限于训练数据的时间与范围。当用户提出时效性强或领域专精的问题时，LLM可能因缺乏最新信息而生成“幻觉”答案。此时，RAG技术通过引入外部知识库检索，为LLM提供了动态扩展的“知识外脑”。

RAG的核心工作流程可分为三步：

这一流程的关键在于检索模块的精准度。若检索结果与查询无关，即使LLM再强大，也会陷入“巧妇难为无米之炊”的困境。例如，在医疗问答场景中，若检索模块误将“糖尿病”相关文档替换为“糖尿病足护理”，LLM可能生成错误的治疗建议。因此，选择合适的检索策略是RAG系统成功的首要条件。

BM25作为传统搜索引擎的核心排序算法，其设计理念可追溯至20世纪90年代。尽管面对深度学习的冲击，它仍凭借可解释性强、计算效率高的特点，在RAG系统中占据一席之地。

BM25在经典TF-IDF（词频-逆文档频率）基础上引入两项关键改进：

词频饱和度处理：通过分段函数限制词频对得分的线性影响。例如，某词在文档中出现10次时，得分增量可能为5；但出现20次时，增量仅提升至6。这避免了“关键词堆砌”文档的过度优势。
文档长度归一化：根据文档平均长度与当前文档长度的比值，动态调整得分。短文档若包含全部查询词，可能获得更高分数；长文档则需更多查询词覆盖才能竞争。

优势：

局限：

实践建议：在业务文档结构清晰、术语统一的场景（如法律条文、产品手册），BM25可作为基础检索层；若需处理自然语言查询，需结合语义技术。

为克服BM25的语义缺陷，基于深度学习的Embedding技术成为主流。其核心思想是将文本映射为低维向量，通过计算向量相似度实现语义检索。

稀疏Embedding（如TF-IDF向量）继承了词袋模型的假设，但将文档表示为高维稀疏向量（维度等于词汇表大小）。每个维度对应一个词，值为TF-IDF权重。

特点：

密集Embedding（如BERT、Sentence-BERT）通过预训练语言模型，将文本编码为固定维度的稠密向量（通常768维）。其优势在于：

实践案例：在电商问答场景中，用户查询“这款手机续航怎么样？”与文档“XX型号电池容量达5000mAh”的向量相似度可能高于关键词匹配（因“续航”与“电池容量”语义相关）。

为进一步提升精度，多向量Embedding技术（如ColBERT、SPLADE）将文档拆分为多个片段（如句子、段落），分别生成向量。检索时计算查询向量与所有片段向量的最大相似度，避免因局部不匹配导致整体遗漏。

优势：

即使采用先进的Embedding技术，初始检索结果仍可能包含噪声。Reranker作为后处理模块，通过更精细的模型对候选文档进行二次排序，提升最终答案的相关性。

Reranker通常基于交叉编码器（Cross-Encoder）架构，其输入为查询与文档的拼接序列，输出为相关性分数。与双编码器（Dual-Encoder，用于Embedding生成）相比，交叉编码器能更充分地建模查询与文档的交互。

常用模型：

收益：

成本：

实践建议：在实时性要求不高的场景（如离线报告生成），可启用Reranker；对延迟敏感的应用（如在线客服），需权衡精度与速度。

选择检索策略时，需综合考虑以下因素：

随着LLM能力的提升，RAG系统正从“检索后生成”向“检索-生成协同”演进。例如，通过LLM生成查询的扩展形式（如“手机续航”扩展为“电池容量、充电速度”），再驱动检索模块；或利用LLM对检索结果进行摘要与整合，减少冗余信息。

同时，多模态检索（如文本+图像+视频）与实时检索（如流式文档更新）成为新的研究热点。开发者需持续关注技术演进，灵活调整检索策略，为LLM打造更智能的“导航系统”。