博客

大语言模型的加速之道：思维骨架(Skeleton-of-Thought)

大家好，欢迎收听我们的人工智能播客，我是你的主播，也是资深的人工智能专家。今天我们要聊的话题是：如何通过一种全新的方式——思维骨架（Skeleton-of-Thought，简称SoT），来加速大语言模型（LLM）的输出，并提高其结果质量。🚀

💡大语言模型的痛点

LLM，例如LLaMA和OpenAI的GPT-4，正在改变我们的技术领域。然而，对LLM的一个普遍抱怨是它们的运行速度。在许多情况下，从LLM获取答案需要很长时间，这限制了LLM在诸如聊天机器人、协同助手和工业控制器等延迟关键功能中的应用。⏱️

🚀思维骨架的提出

为了解决这一问题，微软研究院和清华大学的研究者提出了一种新的加速LLM生成的方法——思维骨架（SoT）。不同于大多数先前需要对LLM模型、系统或硬件进行修改的方法，SoT将LLM视为黑箱，因此可以应用于任何现成的开源（如LLaMA）或API基础（如OpenAI的GPT-4）模型中。🎁

🚗SoT如何加速？

SoT的想法源于LLM和人类处理信息的方式的区别。LLM按顺序生成答案，而人类在很多情况下，会先提炼出答案的骨架，然后添加细节来解释每一点。SoT就是按照这种人类的思维方式，将生成过程分为两个阶段：首先，SoT让LLM生成答案的骨架，然后再让LLM给出骨架中每一点的答案。🔍

这种方法提供了一个新的加速机会，因为第二阶段的每一点的答案都可以并行生成，无论是本地模型（如LLaMA）还是API基础模型（如OpenAI的GPT-4）。对于API基础模型，我们可以对每一点发出并行的API请求。对于本地运行的模型，我们可以在一个批次中同时回答所有的点。💼

⚖️SoT的效果如何？

我们在包括九个开源模型和三个API基础模型在内的12个最近发布的模型上测试了SoT。我们使用的是Vicuna-80数据集，该数据集包含80个问题，涵盖了编程、数学、写作、角色扮演等九个类别。

结果显示，SoT在所有模型上都提供了显著的速度提升。特别是，SoT在12个模型中的8个模型上获得了超过2倍（最高达到2.39倍）的速度提升。此外，SoT在不明显降低答案质量的情况下实现了这种速度的提升。💪

🌈SoT的未来

SoT通过独立并行地扩展点，因此并不适合需要逐步推理的问题，比如数学和编程。为此，我们提出了一种SoT的扩展，叫做SoT with Router（SoT-R），它可以在适合的时候自适应地触发SoT。我们提出了一个路由器模型，该模型可以基于问题和答案的骨架，预测何时应使用SoT。实验显示，SoT-R在数学和编程问题上的性能超过了原始的SoT，并在所有测试集上达到了最好的性能。🎯

对于未来，我们期待通过进一步的研究和开发，将SoT的应用范围扩大到处理更复杂的问题，同时继续提高其生成速度和答案质量。我们相信，随着技术的不断发展，大语言模型将在我们的日常生活中扮演越来越重要的角色，为我们提供更加智能、快速和准确的服务。✨

在此，我要提醒大家，SoT的代码和演示已经在Github上开源，欢迎感兴趣的朋友们去查阅和使用。🌐

以上就是今天播客的全部内容，希望大家对SoT有了更深入的理解。如果你有任何问题或者想法，欢迎在评论区留言。我们下期再见，祝大家每天都有新的收获！👋

2023 年 11 月 30 日
Orca 2：推理技巧赋能小型语言模型，性能超越5-10倍大模型

大家好，今天，我将为大家介绍一篇关于Orca 2的文章。Orca 2是一种小型语言模型，它通过学习一系列推理技巧，在推理能力上超越了5-10倍的大模型。

背景

大型语言模型（LLMs）正在改变人与机器之间的交互方式，并提升了许多现有应用的用户体验，如编码、网络搜索、聊天机器人、客户服务和内容创作等。这种由LLMs带来的转变也为新型人工智能应用铺平了道路。随着LLMs规模的不断扩大，例如GPT-4和PaLM-2等，它们展现出了前所未有的能力，尤其是在零-shot推理方面，包括回答复杂问题、生成解释和解决多步问题。即使在专业领域，LLMs现在也能在美国医学执照考试等测试中取得合格分数。这些能力曾经被认为是人工智能无法达到的范畴。

问题

然而，现有对于小型语言模型的训练往往依赖于模仿学习，即复制更大、更强大的模型的输出。尽管这些模型可以生成与其“老师”风格相似的内容，但它们在推理和理解能力上往往表现不足。模仿学习可能会限制较小模型的潜力，限制它们根据问题和模型容量来利用最佳解决策略。

主要贡献及解决思路

Orca 2的目标有两个：

一是教导较小模型如何使用一系列推理技巧，例如逐步处理、回忆再生成、回忆-推理-生成、抽取-生成和直接回答方法；
二是帮助这些模型确定何时使用最有效的推理策略，让它们能够在任务中表现最佳，不受模型大小的限制。

与Orca 1不同，Orca 2精心设计推理策略以适应特定任务，考虑到学生模型是否具备相同的行为。更强大的LLM被设计为呈现引发特定战略行为的复杂提示，从而产生更精确的结果。在训练阶段，较小模型仅暴露于任务和结果行为，而不知道触发这种行为的原始提示，这种“提示擦除”技术使Orca 2成为一种“谨慎的推理者”。

达到的具体效果

与以往侧重于小型模型评估的研究不同，作者们提供了包含约100个任务和超过36,000个独特提示的15个综合性基准测试来评估Orca 2。初步结果显示（figure 1），Orca 2明显超越了相似规模的模型，甚至在需要推理的任务上与5到10倍大的模型相匹敌甚至超越，突显了赋予较小模型更好推理能力的潜力。

文章推荐

文章名称：Orca 2-Teaching Small Language Models How to Reason

文章链接：https://arxiv.org/pdf/2311.11045.pdf

github链接：

结语

以上就是我对Orca 2这篇文章的解读。希望对大家有所帮助。

2023 年 11 月 30 日

博客

大语言模型的加速之道：思维骨架(Skeleton-of-Thought)

💡大语言模型的痛点

🚀思维骨架的提出

🚗SoT如何加速？

⚖️SoT的效果如何？

🌈SoT的未来

Orca 2：推理技巧赋能小型语言模型，性能超越5-10倍大模型

背景

问题

主要贡献及解决思路

达到的具体效果

文章推荐

结语