分类： AI

赋予大模型道德决策能力：Skin-in-the-Game框架
在人工智能蓬勃发展的今天，大型语言模型（LLMs）在总结、算术推理和问答等任务中展现了卓越的能力。然而，当涉及到多方利益相关者的道德推理和伦理决策时，这些模型往往举步维艰。最近提出的“Skin-in-the-Game”（SKIG）框架旨在通过一种全新的方法，提升LLMs在道德推理方面的能力。

道德决策的挑战

随着Vaswani等人（2017）和Radford等人（2018）开发的LLMs变得越来越复杂，其应用范围也在不断扩大。从教育（Kung等，2023）到优化（Li等，2023），这些模型已经革新了各个领域。尽管取得了显著进展，但在伦理决策领域仍面临重大挑战。这是因为人类价值观和伦理观念的复杂性，受文化和社会偏见（Fraser等，2022）的影响，构成了独特的难题。

SKIG框架

由弗吉尼亚理工大学和亚马逊的研究人员提出的SKIG框架，通过模拟决策对多方利益相关者的影响，旨在提升LLMs的道德推理能力。该框架的核心概念是“Skin-in-the-Game”，即通过让模型承担其决策的结果，促进更加负责任和道德的选择。受到Taleb和Sandis（2013）的启发，该框架结合了共情练习和风险评估，从而模拟问责机制，提升决策能力。

SKIG的工作原理

在SKIG框架中，LLMs被用来基于给定的情境和潜在的行动方案，探索不同的决策情景。模型被引导去设想自己是情境中的每一个利益相关者，模拟其行动的问责性。这种视角的转变显著提高了模型的表现，在各种道德推理基准测试中提升幅度高达70%。这些改进在不同类型的LLMs中都表现出一致性，包括专有模型和开源模型。

SKIG的关键组成部分
1. 模拟问责：通过模拟决策的后果，LLMs被引导去考虑对所有利益相关者的影响，从而加深对伦理影响的理解。
2. 共情练习：该框架包含一些练习，使LLMs能够与不同的利益相关者产生共情，提升其道德推理能力。
3. 风险评估：通过评估不同决策的潜在风险，LLMs能够做出更加明智和道德的选择。
相关工作和贡献

道德在LLMs中的研究引起了广泛关注，各种方法侧重于通过微调（Ganguli等，2022）或提示（Bang等，2022）将这些模型与人类价值观对齐。SKIG框架补充了这些方法，通过增加在各种情景下分析决策对利益相关者影响的关键维度。

结论

Skin-in-the-Game框架在提升LLMs道德决策能力方面迈出了重要一步。通过模拟问责机制和培养共情能力，SKIG解决了AI道德推理的固有挑战。随着LLMs的不断发展，像SKIG这样的框架将在确保这些模型做出负责任和道德的选择方面发挥关键作用，最终惠及整个社会。

“身临其境”：通过大语言模型中的多方利益相关者协调进行决策 (中文分析)

这篇论文介绍了 SKIG（Skin-in-the-Game，身临其境），这是一个旨在增强大型语言模型 (LLM) 道德推理能力的新框架。其核心思想是通过促使 LLM 从多个利益相关者的角度考虑其决定的后果，来模拟一种问责制。

以下是该论文关键方面的细分：

1. 问题陈述：
- LLM 在摘要、推理和问答等任务中表现出色，但在道德和伦理决策方面却步履维艰，尤其是在涉及多个利益相关者的复杂场景中。
- 现有方法主要侧重于通过微调或提示将 LLM 与人类价值观保持一致，但缺乏探索决策后果和模拟问责制的稳健机制。
2. 解决方案：SKIG 框架
- 受“身临其境”概念的启发，SKIG 旨在让 LLM 更加了解与其决策相关的潜在风险和回报。
- 关键组成部分：
  - 情景生成器：根据给定的情况和潜在行动探索多种可能的情景。
  - 利益相关者识别和换位思考：识别所有涉及的利益相关者，并促使 LLM 体验每个利益相关者的视角，从而模拟问责制。
  - 动机分析：分析行动背后的动机，以符合社会规范并促进现实情景的生成。
  - 后果探索：检查每个情景中行动对每个利益相关者的潜在后果。
  - 风险评估：评估最佳情况和最坏情况的后果及其可能性，从而 nuanced 地理解潜在的风险和收益。
  - 结果总结：总结每个情景的关键结果，以帮助做出明智的决策。
3. 理论基础：
- 该论文将道德决策制定视为一个优化问题，其中 LLM 旨在最大化代表所有利益相关者效用的综合福利函数。
- 它为 SKIG 的泛化性能提供了理论保证，强调了 LLM 准确模拟情景分布的能力和所用模拟次数的重要性。
4. 实验和结果：
- 该论文在各种道德推理基准测试中评估了 SKIG，包括 MMLU 道德情景、道德故事、ETHICS 常识道德和社会化学 101。
- SKIG 在不同的 LLM 中始终优于基线方法，如标准提示、零样本 CoT 和思想实验，包括专有模型（TEXT-ADA、TEXT-BABBAGE、TEXT-CURIE、TEXT-DAVINCI、GPT-3.5 TURBO、GPT-4）和开源模型（MISTRAL-7B）。
- 消融研究证明了 SKIG 框架中每个组件的重要性，其中换位思考和风险评估对性能的提高贡献最大。
5. 主要贡献：
- 引入了 SKIG，这是一个通过模拟问责制和多方利益相关者视角来增强 LLM 道德推理能力的新框架。
- 对 SKIG 的泛化能力进行了理论分析。
- 在各种道德推理基准测试中证明了相对于现有方法的显著性能改进。
6. 局限性和未来工作：
- 该论文承认了与 LLM 情景生成和评估过程中潜在偏差相关的局限性。
- 未来的工作可以探索减轻这些偏差并进一步增强框架处理复杂道德困境的能力的方法。
总的来说，这篇论文提出了一种解决 LLM 在道德推理方面局限性的有希望的方法。通过模拟问责制并鼓励多方利益相关者视角，SKIG 为开发更道德、更负责任的 AI 系统提供了一个有价值的框架。
2024 年 5 月 24 日
打破瓶颈：一种层次化框架优化大规模语言模型的答案选择
近年来，基于链式思维提示（Chain-of-Thought, CoT）的技术进步为大规模语言模型（LLMs）在复杂推理任务中带来了显著突破。然而，当模型生成多个推理链并基于答案频率进行集成时，正确答案在少数情况下的表现仍然较差。本文提出的层次化推理聚合框架AoR（Aggregation of Reasoning）通过评估推理链的方式来选择答案，并根据任务复杂度动态调整推理链的数量，显著提升了LLM的推理性能。

背景与现状

LLMs在各种自然语言处理任务中取得了显著进展，但在推理任务上与人类水平仍存在差距。传统方法通过增加模型的规模来提升性能，但效果有限。链式思维提示技术通过生成一系列中间步骤来简化每一步的复杂性，提供了一种新颖的视角来解决复杂推理任务。

然而，目前的多数投票集成方法在错误答案多于正确答案时表现不佳。本文通过对多个推理任务的分析发现，超过80%的样本尽管LLMs能够生成正确答案，但多数投票仍然导致错误预测。例如，在AQuA数据集中，尽管模型生成了正确答案，但由于错误答案的数量优势，最终选择了错误答案。

研究问题

在LLMs能够生成正确答案的情况下，如何减小错误答案的干扰以准确选择正确答案？为了回答这一问题，本文提出了AoR框架，通过评估推理链来提升答案选择的准确性。

AoR框架

AoR框架分为两个阶段：局部评分和全局评价。在局部评分阶段，评估产生相同答案的推理链，重点关注推理过程的合理性和步骤的适当性。在全局评价阶段，联合评估不同答案组中最具逻辑一致性和方法有效性的推理链，确定最佳推理链并将其对应的答案作为最终输出。

此外，AoR利用全局评价阶段的评分来估计模型对其最优推理过程和答案的信心水平，动态决定是否需要采样更多的推理链。这种动态采样机制在平衡性能和计算成本方面表现出色。

实验结果

实验结果表明，AoR在各种推理任务中的表现优于现有的集成方法。特别是在任务难度较大的情况下，AoR通过动态采样显著提升了LLMs的推理性能，减少了推理开销。

主要贡献
1. 识别出现有依赖答案频率的集成机制的不足，强调了推理过程的重要性，设计了层次化推理聚合框架AoR。
2. 利用最优推理链的评分，AoR动态调整采样数量，在平衡性能和计算成本方面表现优异。
结论

本文提出的AoR框架通过评估推理链显著提升了LLMs在复杂推理任务中的性能，为未来的研究和应用提供了新的思路。未来的工作可以进一步优化AoR的评估机制和动态采样策略，以应对更复杂的推理任务。

arxiv.org/pdf/2405.12939#pdfjs.action=download

我们来深入了解一下 AoR 框架的各个组成部分，以及它是如何解决大型语言模型 (LLMs) 在复杂推理任务中所面临挑战的。

现有问题:

现有的 LLM 推理方法，特别是依赖答案频率进行集成的那些，在面对正确答案属于少数情况时往往表现不佳。这是因为：
- 多数投票偏差: 当错误答案的数量超过正确答案时，即使 LLM 能够生成正确答案，基于多数投票的机制也可能倾向于选择错误的最终预测。
- 缺乏推理质量评估: 许多方法仅仅依靠答案出现的频率，而没有对推理过程本身进行质量评估，导致难以区分逻辑合理但答案罕见的情况。
AoR 框架如何解决这些问题:

AoR (Aggregation of Reasoning) 框架通过以下几个关键组件来解决上述问题：
1. 局部评分 (Local-Scoring):
- 分组: AoR 首先使用 CoT (Chain-of-Thought) prompting 技术生成多个推理链，并将得出相同答案的推理链归为一组。
- 评估: 在每个组内，AoR 会根据预定义的标准（例如逻辑一致性、步骤清晰度、知识运用等）对每个推理链进行评分。
- 筛选: AoR 会选择每个组中得分最高的 k 个推理链作为代表，传递到下一阶段。 作用: 局部评分阶段的目标是筛选出每个答案组中推理质量最高的代表性推理链，避免仅仅依赖答案频率进行筛选。
1. 全局评估 (Global-Evaluation):
- 代表推理链比较: AoR 从每个答案组中选择一个得分最高的推理链，并将这些代表推理链进行比较。
- 最终答案选择: AoR 会根据预定义的标准（与局部评分类似）对代表推理链进行评估，并选择得分最高的推理链所对应的答案作为最终答案。 作用: 全局评估阶段的目标是从不同答案中选择推理最充分、逻辑最合理的答案，避免多数投票偏差。
1. 动态采样 (Dynamic Sampling):
  - 分数差距判断: AoR 会根据全局评估阶段中最高分和次高分推理链之间的分数差距来判断是否需要生成更多推理链。
  - 动态调整: 如果分数差距小于预设阈值，意味着模型对最终答案的选择不够确定，AoR 会自动生成更多推理链，并重复上述评分和评估过程，直到达到预设的置信度或推理链数量上限。
  作用: 动态采样机制能够根据任务的复杂性和模型的置信度自适应地调整推理链的数量，在保证准确性的同时提高效率。
总结:

AoR 框架通过结合局部评分、全局评估和动态采样机制，有效地解决了现有 LLM 推理方法的局限性。它不仅关注答案的频率，更注重对推理过程本身进行质量评估，从而提高了 LLM 在复杂推理任务中的准确性和可靠性。

希望这个解释能够帮助你更好地理解 AoR 框架！ 😊

让我们通过一个例子来说明 AoR 框架如何应用于大型语言模型的复杂推理任务中。

假设我们现在有一个常识推理任务：

问题： 小明在公园里散步，突然下起了大雨。他没有带伞，结果全身都湿透了。请问小明应该怎么做才能避免淋湿？

传统的基于答案频率的 LLM 推理方法可能会生成以下推理链和答案：
- 推理链 1： 下雨了，小明没有带伞，所以他淋湿了。他应该回家。 (答案：回家)
- 推理链 2： 下雨了，小明没有带伞，所以他淋湿了。他应该躲到树下。 (答案：躲到树下)
- 推理链 3： 下雨了，小明没有带伞，所以他淋湿了。他应该跑到附近的商店里避雨。 (答案：跑到商店里)
- 推理链 4： 下雨了，小明没有带伞，所以他淋湿了。他应该回家。 (答案：回家)
如果仅仅根据答案频率，”回家” 出现了两次，会被认为是最佳答案。

然而，”躲到树下” 或者 “跑到商店里” 才是更合理的答案。

现在我们来看看 AoR 框架如何处理这个问题：
1. 局部评分: AoR 会将产生相同答案的推理链分组，并对每个推理链进行评分。假设评分标准包括逻辑性、相关性和可行性。
- “回家” 组的两个推理链得分可能较低，因为它们没有直接解决如何避免淋湿的问题。
- “躲到树下” 和 “跑到商店里” 的推理链得分可能较高，因为它们提供了更直接、更可行的解决方案。
1. 全局评估: AoR 会从每个答案组中选择得分最高的推理链进行比较。在这个例子中，”躲到树下” 和 “跑到商店里” 的推理链可能会被选中。AoR 会进一步评估这两个推理链，并根据常识判断 “跑到商店里” 可能比 “躲到树下” 更能有效地避免淋湿。
2. 动态采样: 假设 AoR 在全局评估阶段对 “跑到商店里” 的推理链很有信心 (例如，分数差距远超预设阈值)，它就不会生成更多推理链。否则，它会生成更多推理链，例如 “打电话叫出租车” 或者 “借一把伞”，并重复上述评分和评估过程，直到达到预设的置信度。
最终，AoR 框架会选择 “跑到商店里” 作为最佳答案，因为它能够更准确地理解问题的语义，并生成更合理、更有效的解决方案。

通过这个例子，我们可以看到 AoR 框架如何通过对推理过程进行更细致的评估和动态调整，克服了传统方法的局限性，从而在复杂推理任务中取得更好的表现。
2024 年 5 月 24 日

分类： AI

赋予大模型道德决策能力：Skin-in-the-Game框架

道德决策的挑战

SKIG框架

SKIG的工作原理

SKIG的关键组成部分

相关工作和贡献

结论

“身临其境”：通过大语言模型中的多方利益相关者协调进行决策 (中文分析)

打破瓶颈：一种层次化框架优化大规模语言模型的答案选择

背景与现状

研究问题

AoR框架

实验结果

主要贡献

结论