一、引言：私有化RAG与Agent的核心价值

在上一篇中，我们探讨了如何通过Dify、Ollama与Xinference搭建企业私有化大模型的基础架构。本篇将深入实操环节，聚焦RAG（检索增强生成）与Agent智能体的构建，解决企业场景中数据隐私、响应实时性、任务自动化等核心痛点。通过私有化部署，企业可实现：

数据主权：敏感信息不出域，符合金融、医疗等行业的合规要求；
成本可控：避免公有云API调用费用，长期使用成本降低60%以上；
定制优化：基于行业知识库微调模型，提升专业领域回答准确率。

二、RAG系统构建：从数据到检索的全流程

1. 数据准备与向量化

1.1 数据清洗与分块

使用Python的langchain库对文档进行预处理：

from langchain.text_splitter import RecursiveCharacterTextSplitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,  # 每块500字符
    chunk_overlap=50,  # 块间重叠50字符
    separators=["\n\n", "\n", "。", "；"]  # 中文段落分隔符
)
docs = text_splitter.split_documents([Document(page_content=text)])

关键点：中文需调整分隔符，避免句子被截断；金融报告等长文档需缩小chunk_size以保留上下文。

1.2 向量存储方案对比

方案	优势	适用场景
ChromaDB	轻量级，支持本地化	初创团队，快速验证
Milvus	高并发，分布式扩展	大型企业，高查询量
Qdrant	GPU加速，近似最近邻搜索	实时性要求高的场景

推荐配置：Xinference内置Qdrant支持，可通过以下命令启动：

xinference local --model ollama --model-name qwen2:7b --vector-store qdrant

2. 检索优化策略

2.1 多路检索（Hybrid Search）

结合关键词匹配与语义检索：

from langchain.retrievers import EnsembleRetriever
from langchain.retrievers import BM25Retriever, VectorStoreRetriever
bm25_retriever = BM25Retriever.from_documents(docs, storage_dir="./bm25_index")
vector_retriever = VectorStoreRetriever(vectorstore=vector_store)
hybrid_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.3, 0.7]  # 权重分配
)

效果：在医疗问答场景中，混合检索的F1值比纯语义检索提升12%。

2.2 重排序（Rerank）

使用cohere-rerank模型对检索结果二次排序：

from cohere import Client
co = Client("<api_key>")
reranked = co.rerank(
    query="糖尿病并发症有哪些？",
    documents=[doc.page_content for doc in top_k_results],
    model="rerank-english-v2.0"
)

三、Agent智能体开发：从工具调用到自主决策

1. 工具链集成

1.1 定义工具接口

以调用企业ERP系统为例：

from langchain.tools import BaseTool
class ERPQueryTool(BaseTool):
    name = "erp_query"
    description = "查询ERP系统数据，输入参数为JSON格式的查询条件"
    def _run(self, query: str):
        import requests
        response = requests.post(
            "http://erp-api/query",
            json={"condition": query},
            headers={"Authorization": "Bearer <token>"}
        )
        return response.json()

1.2 工具注册与调度

在Dify中配置工具链：

# config.yaml
tools:
  - name: erp_query
    type: python
    module: erp_tools
    class: ERPQueryTool
  - name: calculator  # 预置计算工具
    type: builtin

2. 规划与执行引擎

2.1 ReAct框架实现

from langchain.agents import ReActAgent
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory(memory_key="chat_history")
agent = ReActAgent.from_llm_and_tools(
    llm=ollama_llm,
    tools=[erp_tool, calculator],
    memory=memory,
    verbose=True
)
agent.run("查询本月销售额超过100万的客户，并计算他们的平均利润率")

2.2 自主决策优化

失败重试机制：当工具调用失败时，自动调整参数重试（如ERP查询条件放宽）；
上下文保留：通过ConversationBufferMemory保持多轮对话连贯性；
安全约束：在Agent执行前检查工具权限（如禁止调用支付接口）。

四、安全与性能优化

1. 数据安全加固

传输加密：启用Xinference的TLS证书：

xinference local --tls-cert /path/to/cert.pem --tls-key /path/to/key.pem

存储加密：Qdrant支持AES-256加密，需在配置文件中启用：

# qdrant_config.yaml
storage:
  encryption:
    key: "<32-byte-base64-key>"

2. 性能调优

模型量化：使用Ollama的4bit量化减少显存占用：
```
ollama run qwen2:7b --quantize 4bit
```

缓存优化：Dify支持Redis缓存检索结果，配置示例：

# settings.py
CACHES = {
    "default": {
        "BACKEND": "django_redis.cache.RedisCache",
        "LOCATION": "redis://127.0.0.1:6379/1",
        "OPTIONS": {"CLIENT_CLASS": "django_redis.client.DefaultClient"},
    }
}

五、部署与监控

1. 容器化部署

使用Docker Compose编排服务：

# docker-compose.yml
version: "3"
services:
  dify:
    image: dify/api:latest
    ports:
      - "8000:8000"
    depends_on:
      - ollama
      - xinference
  ollama:
    image: ollama/ollama:latest
    volumes:
      - ./models:/root/.ollama/models
  xinference:
    image: xprobe/xinference:latest
    ports:
      - "40000-40010:40000-40010"

2. 监控指标

指标	告警阈值	采集工具
模型延迟	>2s	Prometheus
检索成功率	<95%	Grafana
显存占用	>90%	NVIDIA DCGM

六、总结与进阶方向

本篇通过数据准备→RAG优化→Agent开发→安全部署的完整链路，展示了企业私有化大模型应用的落地方法。实际项目中需注意：

迭代优化：根据用户反馈持续调整检索权重和Agent工具链；
多模态扩展：集成图片理解、语音交互等能力（如通过Xinference加载LLaVA模型）；
合规审计：记录所有模型输入输出，满足等保2.0要求。

下一步建议：尝试将Agent与企业微信/钉钉集成，实现工作流自动化；或通过Xinference的GPU共享功能降低硬件成本。

基于Dify+Ollama+Xinference的企业私有RAG与Agent实战（下）