作者： admin

在工程上，”Chain of Thought” (COT) 并不是简单地让大语言模型（LLM）多看几遍题目来回答
在工程上，”Chain of Thought” (COT) 并不是简单地让大语言模型（LLM）多看几遍题目并综合之前的回答做最终回复。相反，COT 是一种引导模型逐步推理和回答问题的方法，目的是通过明确和详细的推理步骤来提高模型的回答质量和准确性。

Chain of Thought 的核心思想

COT 的核心思想是通过引导模型逐步推理，模拟人类解决复杂问题时的思考过程。它包括以下几个关键点：
1. 分步推理：将复杂问题分解为一系列小步骤，每一步都清晰地推导出下一步的结果。这种方法有助于模型在每个小步骤上进行更准确的计算和推理。
2. 过程透明：在回答问题时，模型不仅给出最终答案，还提供详细的推理过程。这使得模型的推理过程更加透明，便于检查和验证。
3. 提高准确性：通过逐步推理，模型可以更好地处理复杂任务，相比直接生成最终答案，分步推理可以减少错误的累积，提高最终答案的准确性。
COT 的实现方式

实现 COT 通常包括以下步骤：
1. 明确问题：首先明确问题的要求，确定需要解决的具体任务。
2. 分解步骤：将复杂问题分解为若干个简单的子问题或步骤，每一步都明确具体的操作或推理过程。
3. 逐步推理：模型按照分解的步骤逐步进行推理，每一步都给出对应的结果。
4. 综合答案：最后将各个步骤的结果综合起来，得到最终答案。
示例

下面是一个简单的例子，展示了如何使用 COT 来解决一个数学问题：

问题：计算 123 和 456 的和。

传统方法：
```
123 + 456 = 579
```
COT 方法：
```
1. 首先计算个位数的和：3 + 6 = 9
2. 然后计算十位数的和：2 + 5 = 7
3. 最后计算百位数的和：1 + 4 = 5
最终答案是：579
```
工程实现中的注意事项

在工程实现中，COT 需要注意以下几点：
1. 提示设计：设计合适的提示（prompts）以引导模型进行分步推理。提示应当清晰、详细，能够逐步引导模型完成每一步的推理。
2. 模型训练：使用带有 COT 的训练数据对模型进行训练，使其学会分步推理的方式。这可以通过监督学习或使用带有详细推理步骤的示例进行强化学习。
3. 评估和验证：对模型的推理过程进行评估和验证，确保每一步的推理都是正确的，从而保证最终答案的准确性。
结论

COT 在工程上是一种通过分步推理来提高大语言模型回答质量的方法，而不是简单地重复多次回答然后综合结果。它通过明确和详细的推理步骤，帮助模型更好地理解和解决复杂问题，从而提高回答的准确性和可靠性。
2024 年 5 月 24 日
赋予大模型道德决策能力：Skin-in-the-Game框架
在人工智能蓬勃发展的今天，大型语言模型（LLMs）在总结、算术推理和问答等任务中展现了卓越的能力。然而，当涉及到多方利益相关者的道德推理和伦理决策时，这些模型往往举步维艰。最近提出的“Skin-in-the-Game”（SKIG）框架旨在通过一种全新的方法，提升LLMs在道德推理方面的能力。

道德决策的挑战

随着Vaswani等人（2017）和Radford等人（2018）开发的LLMs变得越来越复杂，其应用范围也在不断扩大。从教育（Kung等，2023）到优化（Li等，2023），这些模型已经革新了各个领域。尽管取得了显著进展，但在伦理决策领域仍面临重大挑战。这是因为人类价值观和伦理观念的复杂性，受文化和社会偏见（Fraser等，2022）的影响，构成了独特的难题。

SKIG框架

由弗吉尼亚理工大学和亚马逊的研究人员提出的SKIG框架，通过模拟决策对多方利益相关者的影响，旨在提升LLMs的道德推理能力。该框架的核心概念是“Skin-in-the-Game”，即通过让模型承担其决策的结果，促进更加负责任和道德的选择。受到Taleb和Sandis（2013）的启发，该框架结合了共情练习和风险评估，从而模拟问责机制，提升决策能力。

SKIG的工作原理

在SKIG框架中，LLMs被用来基于给定的情境和潜在的行动方案，探索不同的决策情景。模型被引导去设想自己是情境中的每一个利益相关者，模拟其行动的问责性。这种视角的转变显著提高了模型的表现，在各种道德推理基准测试中提升幅度高达70%。这些改进在不同类型的LLMs中都表现出一致性，包括专有模型和开源模型。

SKIG的关键组成部分
1. 模拟问责：通过模拟决策的后果，LLMs被引导去考虑对所有利益相关者的影响，从而加深对伦理影响的理解。
2. 共情练习：该框架包含一些练习，使LLMs能够与不同的利益相关者产生共情，提升其道德推理能力。
3. 风险评估：通过评估不同决策的潜在风险，LLMs能够做出更加明智和道德的选择。
相关工作和贡献

道德在LLMs中的研究引起了广泛关注，各种方法侧重于通过微调（Ganguli等，2022）或提示（Bang等，2022）将这些模型与人类价值观对齐。SKIG框架补充了这些方法，通过增加在各种情景下分析决策对利益相关者影响的关键维度。

结论

Skin-in-the-Game框架在提升LLMs道德决策能力方面迈出了重要一步。通过模拟问责机制和培养共情能力，SKIG解决了AI道德推理的固有挑战。随着LLMs的不断发展，像SKIG这样的框架将在确保这些模型做出负责任和道德的选择方面发挥关键作用，最终惠及整个社会。

“身临其境”：通过大语言模型中的多方利益相关者协调进行决策 (中文分析)

这篇论文介绍了 SKIG（Skin-in-the-Game，身临其境），这是一个旨在增强大型语言模型 (LLM) 道德推理能力的新框架。其核心思想是通过促使 LLM 从多个利益相关者的角度考虑其决定的后果，来模拟一种问责制。

以下是该论文关键方面的细分：

1. 问题陈述：
- LLM 在摘要、推理和问答等任务中表现出色，但在道德和伦理决策方面却步履维艰，尤其是在涉及多个利益相关者的复杂场景中。
- 现有方法主要侧重于通过微调或提示将 LLM 与人类价值观保持一致，但缺乏探索决策后果和模拟问责制的稳健机制。
2. 解决方案：SKIG 框架
- 受“身临其境”概念的启发，SKIG 旨在让 LLM 更加了解与其决策相关的潜在风险和回报。
- 关键组成部分：
  - 情景生成器：根据给定的情况和潜在行动探索多种可能的情景。
  - 利益相关者识别和换位思考：识别所有涉及的利益相关者，并促使 LLM 体验每个利益相关者的视角，从而模拟问责制。
  - 动机分析：分析行动背后的动机，以符合社会规范并促进现实情景的生成。
  - 后果探索：检查每个情景中行动对每个利益相关者的潜在后果。
  - 风险评估：评估最佳情况和最坏情况的后果及其可能性，从而 nuanced 地理解潜在的风险和收益。
  - 结果总结：总结每个情景的关键结果，以帮助做出明智的决策。
3. 理论基础：
- 该论文将道德决策制定视为一个优化问题，其中 LLM 旨在最大化代表所有利益相关者效用的综合福利函数。
- 它为 SKIG 的泛化性能提供了理论保证，强调了 LLM 准确模拟情景分布的能力和所用模拟次数的重要性。
4. 实验和结果：
- 该论文在各种道德推理基准测试中评估了 SKIG，包括 MMLU 道德情景、道德故事、ETHICS 常识道德和社会化学 101。
- SKIG 在不同的 LLM 中始终优于基线方法，如标准提示、零样本 CoT 和思想实验，包括专有模型（TEXT-ADA、TEXT-BABBAGE、TEXT-CURIE、TEXT-DAVINCI、GPT-3.5 TURBO、GPT-4）和开源模型（MISTRAL-7B）。
- 消融研究证明了 SKIG 框架中每个组件的重要性，其中换位思考和风险评估对性能的提高贡献最大。
5. 主要贡献：
- 引入了 SKIG，这是一个通过模拟问责制和多方利益相关者视角来增强 LLM 道德推理能力的新框架。
- 对 SKIG 的泛化能力进行了理论分析。
- 在各种道德推理基准测试中证明了相对于现有方法的显著性能改进。
6. 局限性和未来工作：
- 该论文承认了与 LLM 情景生成和评估过程中潜在偏差相关的局限性。
- 未来的工作可以探索减轻这些偏差并进一步增强框架处理复杂道德困境的能力的方法。
总的来说，这篇论文提出了一种解决 LLM 在道德推理方面局限性的有希望的方法。通过模拟问责制并鼓励多方利益相关者视角，SKIG 为开发更道德、更负责任的 AI 系统提供了一个有价值的框架。
2024 年 5 月 24 日

作者： admin

在工程上，”Chain of Thought” (COT) 并不是简单地让大语言模型（LLM）多看几遍题目来回答

Chain of Thought 的核心思想

COT 的实现方式

示例

工程实现中的注意事项

结论

赋予大模型道德决策能力：Skin-in-the-Game框架

道德决策的挑战

SKIG框架

SKIG的工作原理

SKIG的关键组成部分

相关工作和贡献

结论

“身临其境”：通过大语言模型中的多方利益相关者协调进行决策 (中文分析)