标签： AGI

🧠 MuSR：探索大语言模型推理的极限
在自然语言处理（NLP）的领域，尤其是大语言模型（LLMs）如GPT-4的崛起，使得我们对机器推理的能力产生了新的期待。然而，尽管这些模型在某些常见任务中表现突出，但它们在复杂推理任务上的表现仍然令人担忧。为了解决这一问题，Sprague等人提出了MuSR（Multistep Soft Reasoning），一个旨在测试LLMs在多步骤软推理任务中的表现的数据集。

📚 引言：推理的挑战

在过去的几年中，大语言模型已经在多种任务上取得了显著进展，但它们的推理能力依然面临诸多挑战。现有的评估方法往往依赖于静态的基准数据集，这些数据集没有随着模型能力的提升而更新。MuSR数据集的出现，正是为了填补这一空白。该数据集通过一种新颖的神经符号生成算法，构建了复杂的推理实例，如谋杀悬疑故事，这些故事不仅要求模型理解文本，还需进行深度推理。

🧩 MuSR的构建与特点

MuSR数据集有两个核心特点。首先，它通过神经符号合成到自然生成的算法，创建了复杂的推理实例。这些实例与真实世界的推理领域相对应，如谋杀悬疑、物体放置和团队分配等。这使得MuSR在复杂性和现实性上都超过了以往的基准数据集。其次，MuSR的实例是自由文本叙述，要求模型不仅要提取信息，还需结合常识知识进行推理。这样的设计确保了数据集的挑战性和合理性，便于人类注释者以高准确率解决。

🔍 生成过程：从事实到叙述

MuSR的生成过程可以分为三个主要阶段：
1. 树模板构建：在这一阶段，首先生成一组黄金事实，这些事实用于推出正确答案。以谋杀悬疑为例，事实可能包括“约翰是凶手”和“约翰有动机”。
2. 推理树完成：推理树是一个递归数据结构，表示一个陈述基于其他陈述的支持关系。通过对黄金事实进行递归采样，生成一系列中间推理步骤，这些步骤需要多步骤推理才能得出最终答案。
3. 叙述生成：最后，将推理树中的事实嵌入自然叙述中。为了确保叙述的流畅性和完整性，生成过程采用了分章节的方法，将每个章节与特定的答案选择相对应。这种方法不仅提高了叙述的长度和复杂性，还确保了信息的准确传递。
```
| 领域          | 实例数量 | 推理步骤数 | 常识事实数量 |
| -------------- | -------- | ----------- | ------------ |
| 谋杀悬疑      | 250      | 9           | 10           |
| 物体放置      | 256      | 6           | 11           |
| 团队分配      | 250      | 9           | 10           |
```
🕵️‍♂️ 领域分析：谋杀悬疑与推理

在MuSR中，谋杀悬疑是一个经典的推理领域。这一领域要求模型具备多种推理能力，包括物理推理和社会推理。在构建事实集时，模型需理解社会关系和动机，这在解决谋杀案件时至关重要。例如，判断谁是凶手需要考虑“有手段”、“有动机”和“有机会”这三个要素。

通过MuSR，研究者发现即便是最先进的模型，如GPT-4，在推理复杂的谋杀案件时，仍然无法完全胜任。这一结果暗示了当前LLMs在多步骤和常识推理方面的局限性。

🧑‍🤝‍🧑 团队分配与社交推理

团队分配领域则更侧重于社交推理和约束推理。该领域要求模型在分配任务时考虑个人的技能和团队合作能力。例如，模型需要根据每个人的能力和相互关系来最大化团队的工作效率。这一过程不仅涉及对技能的评估，也需要理解人与人之间的社交动态。

在这个领域，MuSR展示了LLMs在处理复杂社交情境中的不足。尽管一些模型在简单的任务中表现良好，但在需要深度推理的情况下，它们依然无法达到人类的推理水平。

🧠 评估与发现

为验证MuSR的有效性，研究者们对多个大型语言模型进行了测试，包括GPT-4和Llama系列。结果表明，虽然这些模型在某些领域中表现出色，但它们在处理需要复杂推理的任务时，仍然无法超越人类的表现。

例如，在谋杀悬疑领域，GPT-4的表现尽管优于随机猜测，但仍未能达到人类的平均水平。这一发现强调了在未来研究中，需要进一步探索提高LLMs推理能力的方法。

🔮 未来的展望

MuSR不仅是一个数据集，更是推动语言模型推理能力研究的重要工具。随着模型能力的不断提升，MuSR可以被不断更新，以适应新的推理挑战。未来的研究可以集中在如何结合神经符号推理和深度学习技术，以提升LLMs的推理能力。

📜 参考文献
1. Sprague, Z., Ye, X., Bostrom, K., Chaudhuri, S., & Durrett, G. (2024). MuSR: Testing the Limits of Chain-of-Thought with Multistep Soft Reasoning.
2. Wei, J., et al. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models.
3. Bisk, Y., et al. (2020). Experience and Reasoning: The Role of Commonsense Knowledge in Reasoning.
4. Khot, T., et al. (2023). Decomposed Prompting for Multi-step Reasoning.
5. Sap, M., et al. (2019). SocialIQA: A Dataset for Social Reasoning.
2024 年 8 月 27 日
🛠️ ToolLLM：助力大语言模型掌握16000+实际API
引言

在当今人工智能的迅猛发展中，大型语言模型（LLMs）如LLaMA正逐渐成为自然语言处理领域的中坚力量。然而，尽管这些模型在语言理解和生成上展现了令人瞩目的能力，它们在工具使用能力上却显得相对不足。尤其是在使用外部工具，比如API（应用程序编程接口）来完成复杂任务时，开源LLM的表现远不及闭源模型，如ChatGPT。这一现象引发了研究者们的关注，尤其是在如何提升开源LLM的工具使用能力方面。

为了弥补这一差距，我们提出了ToolLLM，一个通用的工具使用框架，包含数据构建、模型训练和评估等多个环节。ToolLLM的核心在于ToolBench，这是一个专门为工具使用而设计的指令调优数据集，它由ChatGPT自动构建而成。我们在ToolBench中收集了超过16,000个来自RapidAPI Hub的真实RESTful API，覆盖49个类别，形成了一个丰富的工具使用数据集。

📊 ToolBench的构建

API收集

ToolBench的构建分为三个阶段，其中第一阶段是API的收集。我们从RapidAPI平台收集了16,464个API，这些API涵盖了社交媒体、电子商务、天气等多个领域。通过对API文档的深入理解，LLMs能够学习如何有效地调用这些API，甚至能够在未见过的API上进行迁移学习。

指令生成

在指令生成阶段，我们通过采样API并利用ChatGPT生成多样化的指令。这些指令不仅涵盖单工具场景，还包括多工具场景，以确保我们的模型能够学习如何有效地组合多个API来完成复杂任务。例如，用户可能希望在一个指令中调用多个API，以获取关于电影、天气和餐厅的信息。

解决路径注释

为了增强LLMs的推理能力，我们开发了一种基于深度优先搜索的决策树算法（DFSDT）。该算法能够让模型评估多条推理路径，进而选择最优的解决方案。这一过程显著提高了注释效率，成功完成了那些传统方法难以处理的复杂指令。

🧠 ToolEval：工具使用能力的评估

为了评估LLMs的工具使用能力，我们开发了自动评估器ToolEval。ToolEval通过两个关键指标来衡量模型的表现：通过率（pass rate）和胜率（win rate）。通过率衡量模型在有限预算内成功执行指令的能力，而胜率则比较了两条解决路径的质量和实用性。我们的实验表明，ToolEval与人工评估的结果高度一致，证明了其在机器工具使用评估中的有效性。

🔍 ToolLLaMA：训练和评估

通过在ToolBench上对LLaMA模型进行微调，我们得到了ToolLLaMA。实验结果显示，ToolLLaMA在处理单工具和复杂多工具指令方面表现优异。与ChatGPT相比，ToolLLaMA在解决复杂指令时的表现几乎不相上下，尤其是在面对未见过的API时，ToolLLaMA展现出了强大的迁移学习能力。

📈 实验结果与分析

在我们的实验中，ToolLLaMA的表现超越了多个基线模型，包括Text-Davinci-003和Claude-2，展现出与ChatGPT相当的能力。此外，ToolLLaMA在APIBench等未分布数据集上的表现也表明了其强大的泛化能力。这一系列实验结果不仅验证了ToolLLM的有效性，也为未来的研究指明了方向。

🤖 结论

ToolLLM通过构建一个覆盖16000多个真实API的ToolBench，极大地提升了开源LLM在工具使用上的能力。DFSDT算法使得LLMs能够在推理过程中进行更加灵活的决策，而ToolEval则提供了一种高效、可靠的评估机制。未来，随着API的不断扩展和技术的不断进步，我们有望看到开源LLM在实际应用中的更广泛应用。

参考文献
1. Yujia Qin et al. “TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS.” ICLR 2024.
2. Touvron et al. “LLaMA: Open and Efficient Foundation Language Models.” 2023.
3. Wei et al. “Chain of Thought Prompting Elicits Reasoning in Large Language Models.” 2023.
4. Yao et al. “ReAct: Synergizing Reasoning and Acting in Language Models.” 2022.
5. Patil et al. “API-Bench: A Benchmark for Evaluating API Understanding in Language Models.” 2023.
2024 年 8 月 27 日

标签： AGI

🧠 MuSR：探索大语言模型推理的极限

📚 引言：推理的挑战

🧩 MuSR的构建与特点

🔍 生成过程：从事实到叙述

🕵️‍♂️ 领域分析：谋杀悬疑与推理

🧑‍🤝‍🧑 团队分配与社交推理

🧠 评估与发现

🔮 未来的展望

📜 参考文献

🛠️ ToolLLM：助力大语言模型掌握16000+实际API

引言

📊 ToolBench的构建

API收集

指令生成

解决路径注释

🧠 ToolEval：工具使用能力的评估

🔍 ToolLLaMA：训练和评估

📈 实验结果与分析

🤖 结论

参考文献