Rag | FXIO 技术博客

一、什么是 RAG？

RAG 全称是 Retrieval-Augmented Generation（检索增强生成）。

为了理解它，我们需要先了解大语言模型（LLM）的两大痛点：

知识滞后性：大模型的训练数据截止于某个时间点，对于训练后发生的新闻、事件或企业内部数据，它一无所知。
“幻觉”问题：当面对未知领域的问题时，模型可能会自信地编造事实（Hallucination），导致输出内容看似通顺但内容错误。

RAG 的核心理念非常简单：不要让大模型去“背”所有知识，而是给它配一个“图书馆”。

当用户提问时，RAG 系统不会直接让大模型生成答案，而是先执行两步操作：

检索（Retrieval）：在外部知识库中搜索与问题最相关的信息。
生成（Generation）：将检索到的信息连同用户的问题一起交给大模型，让模型基于这些事实生成最终回答。

一句话总结：RAG = 大模型（生成能力） + 外部知识库（事实来源）。

二、RAG 是如何工作的？（工作流 + 代码示例）

RAG 的工作流程通常包含以下四个关键步骤。下面我们通过一个具体的场景，用伪代码和逻辑图解来展示它是如何运行的。

🎯 场景设定

背景：一家科技公司的 AI 客服。
知识库（Vector DB）：包含《员工手册 2024 版》和《最新产品 Q3 发布说明书》。
用户提问：“我报销差旅费需要几个人审批？另外，Q3 发布的 AI 助手叫什么名字？”
问题难点：
- 审批人数在《员工手册》里，不在训练数据中。
- 产品名字是刚发布的，模型不知道。

🔧 步骤详解与代码逻辑

1. 数据准备与索引（Building the Library）

在系统上线前，我们需要将文档切片并转化为向量存入数据库。

# 伪代码：建立知识库
documents = [
    "《员工手册》：差旅费报销流程需经过直接主管和部门经理两级审批。",
    "《Q3 发布说明书》：我们于 2023 年 10 月发布了名为 'Nebula AI' 的智能助手。",
    "《Q3 发布说明书》：'Nebula AI' 支持自然语言处理和多模态交互。"
]

# 将文本分块 (Chunking)
chunks = split_text(documents)

# 将文本转化为向量 (Embedding) 并存入向量数据库 (如 Pinecone, Milvus)
for chunk in chunks:
    vector = embedding_model.encode(chunk)
    vector_db.upsert(id=chunk.id, vector=vector, metadata=chunk)

2. 用户提问（Query）

用户输入："我报销差旅费需要几个人审批？另外，Q3 发布的 AI 助手叫什么名字？"

3. 检索相关片段（Retrieval）

系统将用户的提问转化为向量，在向量数据库中进行相似度匹配。

user_query = "我报销差旅费需要几个人审批？另外，Q3 发布的 AI 助手叫什么名字？"
user_vector = embedding_model.encode(user_query)

# 从向量库中检索最相似的 Top-2 片段
# 1. 匹配到"员工手册"相关片段
# 2. 匹配到"Q3 发布说明书"相关片段
retrieved_chunks = vector_db.search(user_vector, top_k=2)

# 结果示例：
# chunk_1: "《员工手册》：差旅费报销流程需经过直接主管和部门经理两级审批。"
# chunk_2: "《Q3 发布说明书》：我们于 2023 年 10 月发布了名为 'Nebula AI' 的智能助手。"

4. 增强与生成（Augmentation & Generation）

系统将检索到的片段和用户问题拼接，发送给大模型。

# 构建 Prompt (提示词工程)
prompt_template = """
请基于以下【检索到的信息】回答用户的问题。
如果信息中不包含答案，请明确说明无法回答。

【检索到的信息】：
{retrieved_chunks}

【用户问题】：
{user_query}

【回答】：
"""

final_prompt = prompt_template.format(
    retrieved_chunks="\n".join(retrieved_chunks),
    user_query=user_query
)

# 调用大模型 (LLM)
llm_response = llm.generate(final_prompt)

✅ 预期输出结果

系统最终生成的回答将是：

“根据《员工手册》，您的差旅费报销需要经过两级审批（直接主管和部门经理）。关于 Q3 发布的产品，名称为 ‘Nebula AI’，它于 2023 年 10 月发布，支持自然语言处理和多模态交互。”

对比： 如果没有 RAG，普通大模型可能会编造“需要三人审批”或者给出一个从未发布过的产品名。

三、为什么 RAG 如此重要？

在 RAG 出现之前，如果想让大模型知道私有数据，通常只能选择微调（Fine-tuning）。但微调存在成本高、周期长、难以更新知识的缺点。

RAG 的优势在于：

特性	传统微调 (Fine-tuning)	RAG (检索增强生成)
知识时效性	训练后数据固化，更新需重新训练	实时更新，只要更新知识库即可
成本	高（需要算力资源训练模型）	低（无需训练模型，只需维护数据库）
可解释性	黑盒，难以追溯答案来源	高，可以追溯到具体的文档段落
数据隐私	敏感数据可能泄露到训练集中	数据保留在本地库，安全性更高
灵活性	修改错误答案难	灵活修改，只需删除或更新数据库中的文档

对于企业而言，RAG 是构建“企业级知识库”的首选方案。 它可以快速将公司内部数万个文档变成可对话的 AI 助手，且无需大模型重新学习这些内容。

四、RAG 的局限与未来

当然，RAG 并非万能。它也有其挑战：

检索质量决定上限：如果检索系统没能找到最相关的片段（即“检索失败”），大模型依然无法给出好答案（Garbage In, Garbage Out）。
上下文窗口限制：如果知识库过于庞大或检索到的内容太多，超过了模型的上下文窗口（Context Window），系统需要设计更复杂的压缩或摘要机制。
跨文档推理：如果答案需要综合多个分散的文档片段才能得出，RAG 的检索机制可能会遗漏关键信息。

未来的发展方向包括：

多路检索：结合关键词搜索（BM25）、向量搜索和图数据库搜索。
Query 重写：在检索前，让模型先优化用户的提问，使其更适合搜索。
RAG 与 Agent 结合：让 AI 不仅能查资料，还能根据查到的资料自动执行复杂的任务（如查天气、查股价、调用 API）。

一、什么是 RAG？#

二、RAG 是如何工作的？（工作流 + 代码示例）#

🎯 场景设定#

🔧 步骤详解与代码逻辑#

1. 数据准备与索引（Building the Library）#

2. 用户提问（Query）#

3. 检索相关片段（Retrieval）#

4. 增强与生成（Augmentation & Generation）#

✅ 预期输出结果#

三、为什么 RAG 如此重要？#

四、RAG 的局限与未来#