博客

链式回顾：利用反馈将语言模型与人类偏好相一致

大家好，欢迎收听本期播客。今天，我们将讨论一篇关于语言模型如何从人类反馈中学习的论文。这篇论文的题目是《链式回顾：利用反馈将语言模型与人类偏好相一致》，由加州大学伯克利分校的研究人员撰写。

引言

语言模型在自然语言理解方面取得了惊人的成绩，但为了确保这些技术对社会产生积极影响，使它们与人类价值观保持一致至关重要。实现这一目标的最关键因素之一是利用人类反馈。人类反馈使我们能够以一种既客观又主观的的方式评估此类模型的性能。它可以帮助发现准确性、公平性和偏差方面的问题，并可以提供有关如何改进模型的见解，以确保模型输出与社会规范和期望保持一致。受将人类反馈纳入语言模型重要性的推动，研究人员一直在开发和测试各种人机交互系统的技术。这些方法旨在提高将人类反馈纳入其中的效率，从而构建能够实现更高性能和准确性、同时提供更高公平性和更合乎道德输出的模型。

研究背景

语言建模的成功在很大程度上归功于利用监督微调 (SFT) 和人类反馈强化学习 (RLHF) 技术。虽然这些方法在提高语言模型在特定任务上的性能方面显示出有希望的结果，但它们也存在明显的局限性。SFT 依赖于人工注释的数据和正面评价的模型生成来微调预训练的语言模型。然而，这种方法在很大程度上依赖于标记数据的可用性，这可能需要大量资金和时间投入。此外，仅依赖正面评价的数据可能会限制模型识别和纠正负面属性或错误的能力，从而降低其对新的和未见过数据的泛化能力。相比之下，RLHF 能够从所有数据中学习，而不管反馈评级如何。尽管如此，这种方法需要学习一个奖励函数，该奖励函数可能会出现偏差和不完善。此外，强化学习算法的优化具有挑战性，在应用中存在重大困难。

研究方法

在这项工作中，我们旨在通过结合 SFT 和 RLHF 的优势来克服它们的局限性，同时无需借助强化学习。我们的关键思想是人类能够从以比较形式呈现的丰富而详细的反馈中学习。我们的假设是，通过将语言模型置于一系列与反馈配对的模型输出的条件下并相应地对其进行训练，它们可以学会识别和纠正错误和负面属性。

研究创新

此外，先前的研究强调了预训练语言模型在上下文学习和指令微调方面的功效。在此基础上，我们引入了一种新颖的方法：将所有人类反馈转换为序列，然后对模型进行微调以理解和有效地利用此类反馈。具体来说，我们建议微调模型以预测输出，同时以一个或多个模型输出及其与其他输出的比较形式的相应反馈为条件。

实质上，我们的方法通过对模型进行微调，使其在考虑一个或多个模型生成的输出及其相关反馈（以与其他输出的比较形式呈现）的情况下生成输出。在训练阶段，模型会收到诸如「糟糕」和「好」之类的反馈表达。然后，它被赋予预测与反馈更紧密一致的输出的任务，例如：「你如何向 6 岁的孩子解释神经网络？糟糕的：{一个糟糕的答案} 好：{一个极好的答案}。」此外，我们的框架允许集成自然语言反馈，例如「{一个糟糕的答案} 与 {一个极好的答案} 相比，是一个不太好的答案」，这不仅告知模型偏好，还提供了额外的特定于任务的指导。在推理时，当给出「好」的正面反馈时，模型会被引导生成所需的输出，从而确保更好的行为。

研究结果

我们对提出的方法在摘要和对话任务领域进行了全面评估，结果表明与 SFT 及其各种迭代以及 RLHF 相比，在自动评估和人类评估中均有显着性能提升。

研究意义

我们的主要贡献有两个：（a）我们引入了一种新颖的学习框架，称为 CoH，它有效地利用所有可用的反馈数据来提高模型性能，而无需依赖 RLHF。值得注意的是，我们的方法 CoH 保持与预训练相同的训练目标，使其易于训练且易于扩展；（b）我们进行了广泛的实验，以展示我们的方法与现有基线（包括最先进的 RLHF 方法）相比的有效性。

研究局限性

尽管我们的方法在摘要和对话任务上取得了有希望的结果，但仍有一些局限性需要考虑。首先，我们的方法依赖于人类反馈的可用性。如果可用的反馈数量有限或质量不高，则可能会影响模型的性能。其次，我们的方法在计算上可能很昂贵，尤其是在处理大型数据集时。最后，我们的方法可能难以推广到其他类型的任务，例如机器翻译或问答。

未来研究方向

在未来，我们将探索以下几个方向来改进我们的方法：（1）研究如何利用少量的人类反馈来提高模型的性能。（2）研究如何降低方法的计算成本，使其能够处理大型数据集。（3）研究如何将方法推广到其他类型的任务，例如机器翻译或问答。

总结

在本文中，我们提出了一种新颖的学习框架，称为 CoH，它可以有效地利用所有可用的反馈数据来提高语言模型的性能。我们的方法在摘要和对话任务上取得了有希望的结果，我们希望它能激发未来的研究，以进一步提高语言模型的性能。

参考文献

[1] Hao Liu, Carmelo Sferrazza, Pieter Abbeel. Chain of Hindsight: Aligning Language Models with Feedback. arXiv preprint arXiv:2302.02676, 2023.

[2] Ming-Wei Chang, Samuel Bowman, Sara Hooker, Erica Bowman. Learning to Rank from Human Feedback: A Case Study in Summarization. arXiv preprint arXiv:2204.05816, 2022.

[3] Yuntao Bai, Zhun Liu, Lifu Huang, Wenhui Wang, Huan Wang, Furu Wei, Xiao Chen. Prompt-based Learning for Few-shot Text Classification. arXiv preprint arXiv:2204.02766, 2022.

2023 年 12 月 15 日
揭秘 LLM 驱动的自主代理

播客：揭秘 LLM 驱动的自主代理

大家好，今天我们将讨论 LLM 驱动的自主代理，一种利用大型语言模型 (LLM) 作为大脑的全新代理系统。我们将深入探讨 LLM 驱动的自主代理的各个组成部分，包括规划、记忆和工具使用，并通过生动的案例研究来理解这些代理如何在现实世界中发挥作用。

一、LLM 驱动的自主代理概述

LLM 驱动的自主代理是一个令人兴奋的概念，它将 LLM 的强大功能与其他关键组件相结合，创造出能够执行复杂任务的智能系统。这些代理可以被视为具有 LLM 大脑的机器人，能够理解和生成人类语言，并利用外部工具和信息来完成任务。

二、组成部分

LLM 驱动的自主代理由以下几个关键组成部分构成：

1. 规划

规划是代理系统的重要组成部分，它使代理能够将复杂的任务分解为更小、更易管理的子目标，并制定实现这些子目标的计划。代理可以通过思想链 (CoT)、思想树等技术来进行规划，并利用人类的投入来完善计划。

2. 记忆

记忆对于代理系统至关重要，它使代理能够存储和检索信息，从而在执行任务时具有上下文感知能力。代理的记忆可以分为短期记忆和长期记忆，短期记忆用于存储当前正在处理的信息，而长期记忆用于存储长期需要的信息。

3. 工具使用

工具使用是 LLM 驱动的自主代理的一个重要特征，它使代理能够调用外部 API 和工具来获取模型权重中缺少的信息，包括当前信息、代码执行能力、对专有信息源的访问等。代理可以通过明确的提示或通过学习来掌握工具的使用方法。

三、案例研究

为了更好地理解 LLM 驱动的自主代理如何在现实世界中发挥作用，我们来看看几个生动的案例研究：

1. 科学发现代理

ChemCrow 是一个特定领域的例子，其中 LLM 用 13 个专家设计的工具来完成有机合成、药物发现和材料设计的任务。ChemCrow 将 CoT 推理与任务相关的工具相结合，并在实践中证明了 LLM 驱动的自主代理在科学发现领域的潜力。

2. HuggingGPT

HuggingGPT 是一个使用 ChatGPT 作为任务规划器的框架，它根据模型描述选择 HuggingFace 平台中可用的模型，并根据执行结果总结响应。HuggingGPT 展示了 LLM 驱动的自主代理如何用于任务规划和模型选择。

四、挑战与展望

尽管 LLM 驱动的自主代理展现出巨大的潜力，但仍面临一些挑战。例如，如何提高代理的效率、稳定性和鲁棒性，如何更好地与人类用户进行交互，如何确保代理的行为符合伦理和安全标准，这些都是需要进一步研究和解决的问题。

展望未来，LLM 驱动的自主代理将在各个领域发挥越来越重要的作用，从科学研究到医疗保健，从金融服务到教育，这些代理将成为我们生活中不可或缺的助手和合作伙伴。

2023 年 12 月 15 日

博客

链式回顾：利用反馈将语言模型与人类偏好相一致

揭秘 LLM 驱动的自主代理