博客

📚 使用 Pyserini 进行 DSPy 的入门指南

在数据驱动的时代，如何有效地检索和处理信息变得愈发重要。Pyserini 是由滑铁卢大学数据系统组维护的工具，可以帮助用户将自己的数据整合到 dspy.Retrieve 中。本文将介绍 Pyserini 的基本使用方法，重点是如何将其与 DSPy 框架结合使用，以实现高效的检索和信息处理。

🚀 1. 安装和设置

在开始使用 dspy.Pyserini 之前，我们需要安装 Pyserini、Pytorch 和 Faiss。可以通过以下命令安装 Pyserini：

pip install pyserini

如果您在自己的设备上运行，请根据需要选择合适版本的 Pytorch 和 Faiss。在 Colab 上，请确保选择 GPU 作为硬件加速器。可以在 “编辑 > 笔记本设置 > 硬件加速器” 中进行选择。

以下是完整的安装和设置代码：

%load_ext autoreload
%autoreload 2

import sys
import pkg_resources 

try: 
    repo_path = 'dspy'
    !git -C repo_path
    %cd $repo_path
    !pip install -e .
    if "pyserini" not in {pkg.key for pkg in pkg_resources.working_set}:
        !pip install pyserini
    if "torch" not in {pkg.key for pkg in pkg_resources.working_set}:
        !pip install torch
    if "faiss-cpu" not in {pkg.key for pkg in pkg_resources.working_set}:
        !pip install faiss-cpu
except:
    repo_path = '.'
    if "dspy-ai" not in {pkg.key for pkg in pkg_resources.working_set}:
        !pip install -U pip
        !pip install dspy-ai

if repo_path not in sys.path:
    sys.path.append(repo_path)

import dspy

📖 2. 使用 Pyserini 的预构建索引

Pyserini 提供了一些预构建的索引，可以直接使用。以下是一个示例，展示如何初始化和使用 Pyserini 的预构建索引：

pys_ret_prebuilt = dspy.Pyserini(index='beir-v1.0.0-nfcorpus.contriever-msmarco', query_encoder='facebook/contriever-msmarco', id_field='_id', text_fields=['title', 'text'])

dspy.settings.configure(rm=pys_ret_prebuilt)

example_question = "How Curry Can Kill Cancer Cells"

retrieve = dspy.Retrieve(k=3)
topK_passages = retrieve(example_question).passages

print(f"Top {retrieve.k} passages for question: {example_question} \\n", '-' * 30, '\\n')

for idx, passage in enumerate(topK_passages):
    print(f'{idx+1}]', passage, '\\n')

运行以上代码后，您将获得与输入问题相关的前 3 个段落的检索结果。这些段落来自于预构建的 Wikipedia 索引，内容涉及如何利用咖喱成分（如姜黄素）治疗癌细胞等信息。

📊 3. 使用您自己的数据

接下来，我们将使用 NFCorpus，这是一个用于医学信息检索的全文本学习排名数据集。首先，下载数据集并解压：

!wget https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/datasets/nfcorpus.zip -P collections
!unzip collections/nfcorpus.zip -d collections

接下来，使用 Pyserini 对数据进行编码并打包到 Faiss 索引中：

!python -m pyserini.encode \
  --corpus collections/nfcorpus/corpus.jsonl \
  --fields title text \
  --embeddings indexes/faiss.nfcorpus.contriever-msmarco \
  --to-faiss \
  --encoder facebook/contriever-msmarco \
  --device cuda:0 \
  --pooling mean

完成数据编码后，您可以使用 dspy.Pyserini 读取本地 Faiss 索引并进行检索。需要注意的是，使用本地索引时，需要传入 Huggingface 的 Dataset 以便进行文档查找。

from datasets import load_dataset

dataset = load_dataset(path='json', data_files='collections/nfcorpus/corpus.jsonl', split='train')

pys_ret_local = dspy.Pyserini(index='indexes/faiss.nfcorpus.contriever-msmarco', query_encoder='facebook/contriever-msmarco', dataset=dataset, id_field='_id', text_fields=['title', 'text'])

dspy.settings.configure(rm=pys_ret_local)

dev_example = "How Curry Can Kill Cancer Cells"

retrieve = dspy.Retrieve(k=3)
topK_passages = retrieve(dev_example).passages

print(f"Top {retrieve.k} passages for question: {dev_example} \\n", '-' * 30, '\\n')

for idx, passage in enumerate(topK_passages):
    print(f'{idx+1}]', passage, '\\n')

运行以上代码，您将获得与输入问题相关的段落，这些段落来自于您自己的数据集。

🔍 结论

通过本文，您了解了如何使用 Pyserini 和 DSPy 进行数据检索与处理。无论是使用预构建索引还是您自己的数据集，DSPy 都提供了一种灵活的方式来实现高效的信息检索。未来，您可以进一步探索 DSPy 的更多功能，通过优化检索和回答生成流程，提升您的应用性能。

2024 年 9 月 8 日

🌐 上下文位置编码（CoPE）：提升大模型的创新之路
在当前自然语言处理（NLP）领域，Attention机制的广泛应用为大型语言模型（LLMs）提供了强大的能力。然而，Attention机制本身并不具备处理序列信息的能力，这使得位置编码（PE）成为了一个不可或缺的组成部分。本文将探讨Meta提出的新方法——上下文位置编码（CoPE），旨在解决现有模型在处理上下文时的普遍问题，并提升其性能。

📚 背景介绍

在处理文本、音频、代码等有序数据时，信息的顺序至关重要。以文本为例，位置信息不仅是解码单词间语义的关键，还在句子和段落级别上扮演着重要角色。现有的大型模型大多基于Transformer架构，使用Attention机制来处理数据。然而，Transformer将序列视为集合，缺乏顺序信息。因此，额外的机制，例如位置编码，变得尤为必要。

位置编码的基本原理是为每个位置分配一个嵌入向量，将其与相应的Token表示相加。现有的PE方法主要有两种：绝对位置编码（APE）和相对位置编码（RPE）。其中，APE是从序列的开头对Token进行计数，而RPE则是从当前Token开始向后计算。这些方法各有优缺，但都面临着相同的挑战：它们通常使用Token作为计量单位，而Token的长度和结构是可变的，这使得在处理复杂句子时位置的精确度大打折扣。

🔍 CoPE的创新之处

为了克服现有PE方法的局限性，Meta提出了上下文位置编码（CoPE）。CoPE旨在将位置编码与文本上下文有机结合，使得模型能够更灵活地识别和处理输入数据中的位置信息。具体来说，CoPE通过上下文向量来决定需要计数的Token，并计算每个Token相对于当前Token的相对位置。

👩‍💻 CoPE的工作原理

CoPE的工作流程如下：首先，当前Token作为请求向量，并利用其Key向量为每个先前的Token计算一个门值（Gate Value）。然后，聚合这些门值以确定Token的相对位置。与传统的Token位置不同，CoPE允许模型在不同上下文中灵活调整位置的定义，这意味着模型可以在不同的查询和层中使用多种单位来测量距离。

通过引入这种动态的上下文位置编码，CoPE不仅提高了模型在特定任务中的表现，还大幅度增强了模型的泛化能力。

🚀 实验结果与应用

为了验证CoPE的有效性，实验表明其在多个toy任务中表现优于基于Token的PE方法，尤其是在域外泛化的情况下。例如，在计数、选择性复制和Flip-Flop任务中，CoPE均显示出更高的准确性。此外，研究还在维基百科文本上进行语言建模任务，结果证明CoPE同样能够带来显著的性能提升。

这些实验结果不仅验证了CoPE在理论上的创新性，更为其在实际应用中的潜力提供了有力支持。在实际代码训练中，CoPE也显示了类似的性能提升，表明其具备广泛的适用性。

🌈 结论

上下文位置编码（CoPE）作为一种新型的位置编码方法，解决了当前模型在处理序列数据时的普遍问题。通过将上下文信息与位置编码相结合，CoPE为大型语言模型提供了更为灵活的处理方式，提升了其在各种任务中的表现。未来，随着技术的不断发展，CoPE有望在更广泛的应用场景中发挥其优势，为自然语言处理的进步贡献力量。

📖 参考文献
1. Shu, Yini. “Meta| 提出上下文位置编码：CoPE，解决当前模型「普遍存在的问题」，含GPT-4o！” 腾讯云开发者社区, 2024.
2. Vaswani, A. et al. “Attention Is All You Need.” Advances in Neural Information Processing Systems, 2017.
3. Devlin, J. et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” arXiv preprint arXiv:1810.04805, 2018.
4. Radford, A. et al. “Language Models are Unsupervised Multitask Learners.” OpenAI, 2019.
5. Brown, T. et al. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020.
2024 年 9 月 8 日

博客

📚 使用 Pyserini 进行 DSPy 的入门指南

🚀 1. 安装和设置

📖 2. 使用 Pyserini 的预构建索引

📊 3. 使用您自己的数据

🔍 结论

🌐 上下文位置编码（CoPE）：提升大模型的创新之路

📚 背景介绍

🔍 CoPE的创新之处

👩‍💻 CoPE的工作原理

🚀 实验结果与应用

🌈 结论

📖 参考文献