标签： AGI

WeKnow-RAG：融合网页搜索与知识图谱的检索增强生成自适应方法
在人工智能迅猛发展的今天，大型语言模型（LLM）成为了实现通用人工智能（AGI）的重要路径。然而，这些模型的可靠性问题——特别是生成事实不准确的信息和“幻觉”内容——对它们在实际应用中的有效性构成了严重挑战。为了解决这一问题，研究人员们不断探索新的方法来增强LLM的知识基础，其中一种新颖的方法便是WeKnow-RAG，这是一种将网页搜索与知识图谱相结合的检索增强生成（RAG）系统。

🚀 引言：大型语言模型的困境与希望

大型语言模型如同一颗璀璨的星星，照耀着人工智能的天空，但其固有的缺陷却如同星辰的阴影，影响着其光芒。在众多研究中，GPT-4的表现虽然在某些领域卓越，但其准确率在处理不太流行的实体时仍低于35%。这说明，我们亟需一种更为有效的方法来提升这些模型的可靠性。

WeKnow-RAG的核心在于通过检索增强生成方法，结合外部数据库和信息检索机制，动态整合相关信息。这不仅能够减少模型的“幻觉”，还可以在需要高精度和最新信息的应用场景中实现更好的性能。

🧩 RAG方法的局限性

传统的RAG方法通常依赖密集向量相似性搜索进行检索，这种方法在面对复杂查询时往往力不从心。尽管一些研究尝试通过元数据过滤或混合搜索技术来改进这一点，但这些方法受到预先定义的元数据范围的限制，且在相似向量空间内实现复杂查询所需的粒度仍然具有挑战性。这种效率低下的表现，往往使得系统无法选择性地检索相关信息，导致检索出大量无法直接回答查询的块数据。

📊 知识图谱的优势

知识图谱（KG）作为一种结构化知识的表示方式，能够提供比向量相似性检索更精确的实体和关系的显式表示。KG通过维护大量显式的知识三元组，能够更好地搜索“事物，而不是字符串”。例如，知识三元组通常以（实体）-关系→（实体）的形式呈现，这种结构化的表示方式在信息检索中具有不可替代的优势。

🌐 WeKnow-RAG的创新

为了解决上述挑战，WeKnow-RAG系统应运而生。它将网页搜索与知识图谱的优点结合起来，旨在提高LLM响应的准确性和可靠性。具体而言，该系统包含以下几个关键组件：

1. 特定领域的KG增强型RAG系统

该系统能够适应不同类型的查询和领域，从而提升事实性和复杂推理任务的性能。通过构建特定领域的知识图谱，WeKnow-RAG实现了对领域特定知识的精确检索。

2. 多阶段网页检索方法

WeKnow-RAG引入了一种多阶段检索方法，利用稀疏和密集检索技术，有效平衡信息检索的效率与准确性。其第一阶段通过稀疏检索获取相关段落，而第二阶段则结合密集检索以提升信息的相关性和准确性。

3. 自我评估机制

为了减少幻觉并提高整体响应质量，WeKnow-RAG为LLM实现了一种自我评估机制。该机制评估生成答案的置信度，只有在满足特定要求时才接受答案。

4. 自适应框架

该框架能够根据不同领域的特征和信息变化率，智能结合基于KG和基于Web的RAG方法。这种灵活性使得WeKnow-RAG能够在快速变化的信息环境中保持高效性。

🔬 方法详解：WeKnow-RAG的工作流程

WeKnow-RAG采用端到端的检索增强生成方法，其工作流程包括KG工作流程和网页搜索工作流程的有效集成。首先，通过内容解析将网页内容转化为结构化数据，然后进行分块和多阶段检索，以获取相关信息。

📈 BM25分数计算

在多阶段检索的第一阶段，我们使用BM25算法选择排名靠前的K个候选答案。BM25的得分计算公式如下：

$Score(query, C_i) = \sum_{q_j \in query} IDF(q_j) \cdot \frac{f(q_j, C_i) \cdot (k_1 + 1)}{f(q_j, C_i) + k_1 \cdot (1 - b + b \cdot \frac{|C_i|}{avg_dl})}$

其中， $IDF(q_j)$ 是词项 $q_j$ 的逆文档频率， $f(q_j, C_i)$ 是词项 $q_j$ 在文档 $C_i$ 中的词频， $k_1$ 和 $b$ 分别是词频饱和度参数和长度归一化参数。

🏆 WeKnow-RAG的出色表现

在Meta KDD CUP 2024的最终评估中，WeKnow-RAG荣获第三名。这一结果证明了我们的方法在不同领域和问题类型中都能显著提升准确性，同时减少幻觉的出现。

🔮 结论与未来方向

WeKnow-RAG的提出，不仅为大型语言模型的应用提供了新的思路，也为检索增强生成技术的发展开辟了新的方向。尽管LLM在各个领域展现出了巨大的潜力，但其在事实准确性上的缺陷仍是未来研究的重要挑战。通过结合知识图谱与网络搜索，WeKnow-RAG为提升LLM的可靠性与准确性提供了有效的解决方案。

参考文献
1. CSDN. WeKnow-RAG：融合网页搜索和知识图谱的检索增强生成自适应方法. 链接
2. 相关研究论文和技术文献。
3. 领域分类与信息抽取的最新进展。
4. 机器学习与自然语言处理领域的前沿研究。
5. 知识图谱在智能问答中的应用分析。
2024 年 9 月 1 日
🌟 多跳微调：解锁自然语言处理的新篇章
在当今的人工智能领域，自然语言处理（NLP）已经成为一个炙手可热的话题，而在这其中，多跳推理（Multi-hop reasoning）则是一个极具挑战性和潜力的方向。多跳推理意味着模型需要通过多个步骤或“跳跃”来综合信息，从而回答复杂的问题。在这篇文章中，我们将深入探讨如何通过微调（fine-tuning）技术来提升多跳推理模型的性能，特别是使用 Llama2 和 T5 模型的案例。

🧩 理论基础：多跳推理的魅力

多跳推理的核心在于信息的整合与推导，模型不仅要理解单个信息片段，还需要结合不同的信息来源来得出结论。想象一下，如果你要回答一个关于历史的人物的问题，单靠一两条信息是远远不够的，你必须综合多个相关文献的内容，才能给出一个准确的答复。这种能力正是多跳推理所致力于实现的。

🛠️ 配置环境：搭建多跳推理框架

在实现多跳推理之前，我们首先需要配置合适的环境。我们的代码框架使用了 dspy 库，这是一个专为处理多跳推理任务而设计的工具。首先，我们需要加载必要的模块和库：
```
import dspy
from dspy.evaluate import Evaluate
from dspy.datasets.hotpotqa import HotPotQA
from dspy.teleprompt import BootstrapFewShotWithRandomSearch, BootstrapFinetune
```
通过这样的配置，我们能够利用 dspy 提供的数据集和评估工具，有效地进行模型训练和性能评估。

📊 数据集加载：HotPotQA 的魅力

HotPotQA 是一个经典的多跳推理数据集，它包含了大量需要多步推理才能回答的问题。我们从数据集中加载一个小样本，设置训练集和验证集的大小，如下所示：
```
dataset = HotPotQA(train_seed=1, train_size=200, eval_seed=2023, dev_size=1000, test_size=0)
trainset = [x.with_inputs('question') for x in dataset.train]
```
通过这种方式，我们确保模型能够在有限的数据上进行有效的学习和验证。

🔄 定义多跳程序：基本的多跳模型

接下来，我们定义一个简单的多跳程序。这个程序的核心是使用两次检索，将上下文信息整合起来，并最终生成答案。以下是程序的核心实现：
```
class BasicMH(dspy.Module):
    def __init__(self, passages_per_hop=3):
        super().__init__()

        self.retrieve = dspy.Retrieve(k=passages_per_hop)
        self.generate_query = [dspy.ChainOfThought("context, question -> search_query") for _ in range(2)]
        self.generate_answer = dspy.ChainOfThought("context, question -> answer")

    def forward(self, question):
        context = []

        for hop in range(2):
            search_query = self.generate_query[hop](context=context, question=question).search_query
            passages = self.retrieve(search_query).passages
            context = deduplicate(context + passages)

        return self.generate_answer(context=context, question=question).copy(context=context)
```
在这个实现中，deduplicate 函数用于去除重复的上下文信息，确保模型能够获取到最相关的内容。

🔍 评估与优化：微调的艺术

微调是提升模型性能的重要步骤。在我们的设置中，我们可以选择是否从头开始重新编译 Llama2 模型，或者直接加载已经训练好的模型。以下是通过微调来提升模型性能的示例：
```
if RECOMPILE_INTO_LLAMA_FROM_SCRATCH:
    tp = BootstrapFewShotWithRandomSearch(metric=metric_EM, max_bootstrapped_demos=2, num_threads=NUM_THREADS)
    basicmh_bs = tp.compile(BasicMH(), trainset=trainset[:50], valset=trainset[50:200])
```
通过使用 BootstrapFewShotWithRandomSearch，我们能够在有限的样本上进行高效的学习与验证。

🚀 结果展示：模型的表现如何？

经过训练与微调后，我们对模型的性能进行评估。通过计算准确率等指标，我们可以直观地了解到模型在多跳推理任务中的表现。在我们的实验中，模型在 1000 个验证样本上的平均准确率达到了 42.4%。
```
evaluate_hotpot(llama_program)
```
这样的表现虽然还有提升的空间，但已经显示出多跳推理模型的潜力和价值。

🧠 T5 模型的微调：多跳推理的另一种尝试

除了 Llama2，我们还尝试使用 T5 模型进行多跳推理的微调。在 T5 的设置中，我们同样需要加载训练数据，并根据需要进行评估：
```
t5_program = tp.compile(BasicMH(), teacher=ensemble, trainset=unlabeled_train[:3000], **config)
```
通过这种方式，我们不仅验证了 Llama2 的有效性，也为 T5 模型提供了新的训练思路。

🏁 结论：未来的展望

多跳推理作为自然语言处理中的一项重要任务，正受到越来越多的关注。通过微调技术，我们可以有效地提升模型的性能，使其在复杂问题的回答中表现得更加出色。未来，随着技术的不断进步，我们期待看到更多关于多跳推理的研究成果和应用场景。

📚 参考文献
1. Chen, Q., et al. (2019). “HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering.”
2. Brown, T. B., et al. (2020). “Language Models are Few-Shot Learners.”
3. Raffel, C., et al. (2020). “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.”
4. Lewis, M., et al. (2020). “BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Processing.”
5. Wang, A., et al. (2020). “GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding.”
2024 年 8 月 31 日