博客

🚀 DSPy: 自我增强的模型调用与编译声明性语言
在近年来，语言模型（LMs）在自然语言处理（NLP）领域的应用越来越广泛，推动了研究人员在更高的抽象层次上构建NLP系统，同时降低了对数据的需求。然而，现有的LM管道通常依赖于手工编写的“提示模板”，这些模板往往需要反复试验才能找到最佳的表现方法。为了解决这一问题，Omar Khattab等学者提出了DSPy——一种将LM管道抽象为文本转换图的编程模型。这一模型使得开发和优化LM管道变得更加系统化。

🎯 DSPy的核心理念

DSPy的核心在于其将LM调用与声明性模块结合的编程模型。传统的手工提示字符串往往不具备通用性，且在不同数据域、输入或LM之间无法有效迁移。而DSPy通过将提示技术转化为声明性模块，使得用户能够定义模块的输入输出行为，而不是具体的提示内容。这种方法不仅提高了可重用性，还减少了对手动提示的依赖。

DSPy模块是参数化的，可以通过反复自我增强来学习如何应用提示、微调、增强和推理技术。通过DSPy编译器，用户可以优化任何DSPy管道，以最大化给定的评估指标。这一创新极大地简化了LM管道的构建过程，使得即使是较小的LM如Llama2-13b-chat，也能够实现与大规模LM相当的性能。

🛠️ DSPy的结构与功能

DSPy的编程模型主要包括以下几个方面：
1. 自然语言签名：通过定义输入输出的字段，用户可以轻松地为LM指定任务。例如，用户只需通过简单的声明question -> answer来定义一个问题回答模块，而无需关心具体的提示内容。
2. 模块化设计：DSPy允许用户通过参数化模块将提示技术抽象化。用户可以根据需要组合不同的模块，例如ChainOfThought模块和Predict模块，从而构建复杂的任务管道。
3. 自动化优化：DSPy中的“teleprompters”负责自动优化模块的提示和微调策略。用户只需提供少量的训练示例，DSPy便可以通过自我增强机制生成有效的提示和微调策略，从而提高系统的性能。
🧩 案例研究：数学问题与复杂问答

在文章中，作者通过两个案例研究展示了DSPy的强大能力：数学问题（GSM8K数据集）和多跳问答（HotPotQA数据集）。

数学问题的挑战

在GSM8K数据集中，研究者们对200个问题-答案对进行了训练，最终评估使用了1300个官方测试集样本。DSPy的不同模块表现出显著的性能差异。例如，使用ChainOfThought模块的系统在开发集上的准确率达到了44.0%，而经过优化的reflection模块的准确率高达78.6%。这些结果表明，DSPy能够有效地将简单模块组合成复杂的、高效的问答系统。

多跳问答的复杂性

在HotPotQA数据集的案例研究中，DSPy同样展现了其强大的能力。研究者们利用ColBERTv2检索器对维基百科进行了搜索，并评估了多跳问答系统的性能。在这一任务中，DSPy的多跳模块通过多次迭代检索和生成查询，成功实现了较高的答案准确率。

模块 GPT-3.5 答案准确率 Llama2-13b-chat 答案准确率
vanilla 34.3% 31.5%
fewshot 36.4% 29.8%
CoT RAG 42.3% –
react 39.0% –
multihop 54.7% 45.6%

从表格中可以看出，使用DSPy的多跳模块不仅提升了答案的准确率，还显著提高了检索精度，展示了DSPy在复杂问答任务中的有效性。

🎉 结论与展望

DSPy的引入为构建和优化基于LM的NLP系统提供了一种新颖的方法。通过模块化设计和自动化优化，DSPy使得开发者能够快速创建高效的LM管道，而无需依赖繁琐的手工提示。这一模型不仅降低了开发门槛，也为未来的AI系统设计提供了新的方向。

参考文献
1. Khattab, O., Singhvi, A., Maheshwari, P., et al. (2024). DSPy: Model Calls into Self-Improvements.
2. Bommasani, R., et al. (2021). On the Opportunities and Risks of Foundation Models.
3. Wei, J., et al. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models.
4. Yang, Z., et al. (2018). HotPotQA: A Dataset for Diverse, Explainable Multi-Hop Question Answering.
5. Guu, K., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.
🚀 DSPy：编程而非提示的基础模型

DSPy是一个用于算法优化语言模型（LM）提示和权重的框架，尤其当LM在管道中被多次使用时。通过使用DSPy，用户可以更加系统化地构建复杂的AI系统，而不再依赖繁琐的提示工程。

🎯 DSPy的核心功能

DSPy的设计理念是将程序的执行流程与每一步的参数（LM的提示和权重）分离开来。它引入了新的优化器，这些优化器是基于LM的算法，能够在给定的评估指标上优化提示和/或LM调用的权重。通过这种方式，DSPy能够为GPT-3.5、GPT-4等强大的模型，以及像T5-base和Llama2-13b这样的本地模型，提供更高的任务可靠性和更好的质量。

🛠️ DSPy的工作原理

使用DSPy的基本步骤包括：
1. 定义任务和指标：明确要解决的任务及其评估标准。
2. 构建管道：选择内置模块，并为每个模块指定输入输出的签名。
3. 编译程序：调用DSPy优化器，将代码编译为高质量的指令、自动的少量示例，或更新LM的权重。
📊 模块和优化器的概念

DSPy的两个核心概念是签名和优化器（原称为teleprompters）。
- 签名：用于声明LM的输入输出行为。用户在定义模块时，可以指定任务的描述、输入字段和输出字段。这样，DSPy编译器能够为特定的任务构建有效的提示。
- 优化器：自动优化程序的参数，可以生成有效的提示和示例，或对LM进行微调以提升质量。用户只需提供少量的训练示例，DSPy将自动生成所需的中间标签。
📦 安装与使用

要安装DSPy，只需运行以下命令：
```
pip install dspy-ai
```
对于最新版本，可以使用以下命令：
```
pip install git+https://github.com/stanfordnlp/dspy.git
```
此外，DSPy提供了丰富的文档和教程，帮助用户快速上手和深入学习。

📚 教程与示例

DSPy的文档包含了多个层次的教程，从初学者到高级用户都有覆盖。以下是一些推荐的学习资源：
- Getting Started：介绍DSPy的基本构建模块，解决复杂问答任务。
- Compiling for Tricky Tasks：教授如何使用LM处理逻辑推理和否定。
- Finetuning for Complex Programs：教导如何使用T5模型在HotPotQA上取得优异成绩。
🎉 结论

DSPy提供了一个强大而灵活的框架，能够帮助研究人员和开发者更高效地构建和优化基于LM的系统。通过实现模块化设计和自动优化，DSPy使得在复杂任务中使用语言模型变得更加简单和高效。

📜 引用与更多阅读

如果您在研究论文中使用DSPy，请引用以下内容：
```
@article{khattab2023dspy,
  title={DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines},
  author={Khattab, Omar and Singhvi, Arnav and Maheshwari, Paridhi and Zhang, Zhiyuan and Santhanam, Keshav and Vardhamanan, Sri and Haq, Saiful and Sharma, Ashutosh and Joshi, Thomas T. and Moazam, Hanna and Miller, Heather and Zaharia, Matei and Potts, Christopher},
  journal={arXiv preprint arXiv:2310.03714},
  year={2023}
}
```
通过DSPy，研究人员可以更好地掌控语言模型的使用方式，从而在各种自然语言处理任务中实现更高的效率和准确性。
2024 年 8 月 27 日
🧠 MuSR：探索大语言模型推理的极限
在自然语言处理（NLP）的领域，尤其是大语言模型（LLMs）如GPT-4的崛起，使得我们对机器推理的能力产生了新的期待。然而，尽管这些模型在某些常见任务中表现突出，但它们在复杂推理任务上的表现仍然令人担忧。为了解决这一问题，Sprague等人提出了MuSR（Multistep Soft Reasoning），一个旨在测试LLMs在多步骤软推理任务中的表现的数据集。

📚 引言：推理的挑战

在过去的几年中，大语言模型已经在多种任务上取得了显著进展，但它们的推理能力依然面临诸多挑战。现有的评估方法往往依赖于静态的基准数据集，这些数据集没有随着模型能力的提升而更新。MuSR数据集的出现，正是为了填补这一空白。该数据集通过一种新颖的神经符号生成算法，构建了复杂的推理实例，如谋杀悬疑故事，这些故事不仅要求模型理解文本，还需进行深度推理。

🧩 MuSR的构建与特点

MuSR数据集有两个核心特点。首先，它通过神经符号合成到自然生成的算法，创建了复杂的推理实例。这些实例与真实世界的推理领域相对应，如谋杀悬疑、物体放置和团队分配等。这使得MuSR在复杂性和现实性上都超过了以往的基准数据集。其次，MuSR的实例是自由文本叙述，要求模型不仅要提取信息，还需结合常识知识进行推理。这样的设计确保了数据集的挑战性和合理性，便于人类注释者以高准确率解决。

🔍 生成过程：从事实到叙述

MuSR的生成过程可以分为三个主要阶段：
1. 树模板构建：在这一阶段，首先生成一组黄金事实，这些事实用于推出正确答案。以谋杀悬疑为例，事实可能包括“约翰是凶手”和“约翰有动机”。
2. 推理树完成：推理树是一个递归数据结构，表示一个陈述基于其他陈述的支持关系。通过对黄金事实进行递归采样，生成一系列中间推理步骤，这些步骤需要多步骤推理才能得出最终答案。
3. 叙述生成：最后，将推理树中的事实嵌入自然叙述中。为了确保叙述的流畅性和完整性，生成过程采用了分章节的方法，将每个章节与特定的答案选择相对应。这种方法不仅提高了叙述的长度和复杂性，还确保了信息的准确传递。
```
| 领域          | 实例数量 | 推理步骤数 | 常识事实数量 |
| -------------- | -------- | ----------- | ------------ |
| 谋杀悬疑      | 250      | 9           | 10           |
| 物体放置      | 256      | 6           | 11           |
| 团队分配      | 250      | 9           | 10           |
```
🕵️‍♂️ 领域分析：谋杀悬疑与推理

在MuSR中，谋杀悬疑是一个经典的推理领域。这一领域要求模型具备多种推理能力，包括物理推理和社会推理。在构建事实集时，模型需理解社会关系和动机，这在解决谋杀案件时至关重要。例如，判断谁是凶手需要考虑“有手段”、“有动机”和“有机会”这三个要素。

通过MuSR，研究者发现即便是最先进的模型，如GPT-4，在推理复杂的谋杀案件时，仍然无法完全胜任。这一结果暗示了当前LLMs在多步骤和常识推理方面的局限性。

🧑‍🤝‍🧑 团队分配与社交推理

团队分配领域则更侧重于社交推理和约束推理。该领域要求模型在分配任务时考虑个人的技能和团队合作能力。例如，模型需要根据每个人的能力和相互关系来最大化团队的工作效率。这一过程不仅涉及对技能的评估，也需要理解人与人之间的社交动态。

在这个领域，MuSR展示了LLMs在处理复杂社交情境中的不足。尽管一些模型在简单的任务中表现良好，但在需要深度推理的情况下，它们依然无法达到人类的推理水平。

🧠 评估与发现

为验证MuSR的有效性，研究者们对多个大型语言模型进行了测试，包括GPT-4和Llama系列。结果表明，虽然这些模型在某些领域中表现出色，但它们在处理需要复杂推理的任务时，仍然无法超越人类的表现。

例如，在谋杀悬疑领域，GPT-4的表现尽管优于随机猜测，但仍未能达到人类的平均水平。这一发现强调了在未来研究中，需要进一步探索提高LLMs推理能力的方法。

🔮 未来的展望

MuSR不仅是一个数据集，更是推动语言模型推理能力研究的重要工具。随着模型能力的不断提升，MuSR可以被不断更新，以适应新的推理挑战。未来的研究可以集中在如何结合神经符号推理和深度学习技术，以提升LLMs的推理能力。

📜 参考文献
1. Sprague, Z., Ye, X., Bostrom, K., Chaudhuri, S., & Durrett, G. (2024). MuSR: Testing the Limits of Chain-of-Thought with Multistep Soft Reasoning.
2. Wei, J., et al. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models.
3. Bisk, Y., et al. (2020). Experience and Reasoning: The Role of Commonsense Knowledge in Reasoning.
4. Khot, T., et al. (2023). Decomposed Prompting for Multi-step Reasoning.
5. Sap, M., et al. (2019). SocialIQA: A Dataset for Social Reasoning.
2024 年 8 月 27 日

模块	GPT-3.5 答案准确率	Llama2-13b-chat 答案准确率
vanilla	34.3%	31.5%
fewshot	36.4%	29.8%
CoT RAG	42.3%	–
react	39.0%	–
multihop	54.7%	45.6%

博客

🚀 DSPy: 自我增强的模型调用与编译声明性语言

🎯 DSPy的核心理念

🛠️ DSPy的结构与功能

🧩 案例研究：数学问题与复杂问答

数学问题的挑战

多跳问答的复杂性

🎉 结论与展望

参考文献

🚀 DSPy：编程而非提示的基础模型

🎯 DSPy的核心功能

🛠️ DSPy的工作原理

📊 模块和优化器的概念

📦 安装与使用

📚 教程与示例

🎉 结论

📜 引用与更多阅读

🧠 MuSR：探索大语言模型推理的极限

📚 引言：推理的挑战

🧩 MuSR的构建与特点

🔍 生成过程：从事实到叙述

🕵️‍♂️ 领域分析：谋杀悬疑与推理

🧑‍🤝‍🧑 团队分配与社交推理

🧠 评估与发现

🔮 未来的展望

📜 参考文献