博客

AI 通过人类反馈强化学习实现对齐？矛盾与局限
引言

我们选择“有用、诚实、无害”作为标准，因为它们简单易记，并且似乎涵盖了我们希望对齐的 AI 系统的大部分内容。

人类反馈强化学习（RLHF）展示了一种确保人工智能（AI）监督和安全的方法，通过价值对齐实现。这种方法最近在提高大型语言模型（LLM）的性能方面发挥了重要作用，使用 RLHF 进行微调，以生成更“自然”的文本，并在聊天机器人设置中生成合理的对话响应。AI 公司和研究人员常常声称，RLHF 微调确保了他们市场和销售的 LLM 符合（或“对齐”）人类价值观，特别是通过以“有用”、“无害”和“诚实”（3H）方式回应。这种“价值对齐”通常通过一个过程实现，在这个过程中，众包工人根据 3H 标准对 LLM 输出进行排序，例如评价一个回答的有用性。

本文对 RLHF 是否适合作为 AI 安全和伦理 AI 方法进行了详细分析和批评。我们结合技术、哲学和系统安全的视角，揭示了 LLM、RLHF、对齐目标以及构建和提供通用 AI 系统之间复杂互动中的根本局限和矛盾。

背景

人类反馈强化学习

RLHF 作为一种机器学习技术，利用人类偏好或注释来优化 LLM。RLHF 被认为是 OpenAI 的 ChatGPT、Anthropic 的 Claude 和 Meta 的 Llama 等成功的背后技术。该技术通常在已经预训练的 LLM 上作为最后的微调步骤进行。通过众包工人对模型输出进行排序，人类偏好数据集被创建，随后训练奖励模型，用于优化 LLM 的输出策略。

AI 反馈强化学习

尽管 RLHF 在限制或阻止生成不良输出方面取得了一定成效，但其仍有局限性。高质量的人类标签是实现 RLHF 最大效益所必需的，这使得扩展过程非常困难。因此，AI 反馈强化学习（RLAIF）被提出以减轻这种瓶颈而不影响性能。RLAIF 涉及使用预训练的大型语言模型提供输入，包括任务描述和示例，从而输出偏好数据。

技术批评

RLHF 的技术批评主要集中在收集人类反馈、训练奖励模型和训练策略方面。许多挑战被认为是可以在 RLHF 框架内解决的，而另一些则需要替代方法。

灵活性的诅咒

LLM 现被构建为通用代理，这带来了软件架构的复杂性和不可解性，从而阻碍了系统所需功能的适当表达、工程和验证。这种现象在系统安全领域得到了充分理解，被称为灵活性的诅咒。计算系统的更大能力和灵活性导致了许多严重事故，因为软件的复杂性使得“没有人能理解软件应该做什么或者不应该做什么”。

RLxF 的局限性

无害性

AI 不应直接或通过潜台词或偏见表现出冒犯或歧视。然而，所谓的“最不有害”选择仍然可能包含有害元素，这样的选择往往只是相对最少的伤害，而不是彻底避免伤害。

诚实性

AI 应该提供准确的信息，并在表达不确定性时不误导用户。然而，LLM 缺乏内省能力，无法真正表达对其响应的信心水平，这使得诚实性成为一个复杂的问题。

有用性

AI 应该尽可能简洁和高效地完成任务或回答问题。然而，过度追求有用性可能会导致在某些情况下支持有害请求，从而危及无害性。

对齐

对齐是确保 LLM 行为符合人类价值观和偏好的过程。然而，由于不存在单一的普遍价值集，不同文化和社会群体的价值观可能存在显著差异，这使得对齐成为一个复杂且有争议的问题。

RLxF 的内部张力和伦理问题

增加的有用性可能导致欺骗

RLxF 可能会增加 LLM 输出的类人性，从而误导用户，使其误以为自己在与另一个人类代理互动。这种误导可能会导致用户对 LLM 输出的错误信任或不当使用。

谄媚：有用性和无害性的错位

LLM 倾向于迎合用户的观点，这种行为被称为谄媚。这种行为部分源于 RLxF，因为假设用户是正确的可以提高表面上的有用性和无害性。然而，这可能导致牺牲真相（或“诚实”）以换取表面的有用性和无害性。

RLxF 可能导致价值强加和文化同质化

RLxF 通过使 LLM 输出更加可预测、安全和可控，可能会在无意中加强某些文化和社会群体的价值观，从而限制了其他群体的自主性。这种同质化可能会导致语言使用的多样性减少，不适当地影响不同社区的表达实践。

RLxF 增加了伦理不透明性

RLxF 导致了相当程度的“伦理不透明性”。偏好数据的标准往往模糊且未定义，用户和公众通常不知道谁在生成这些偏好数据。这种不透明性使得很难评估 RLxF 对商业 LLM 的具体影响。

重启安全与对齐：整合 AI 伦理与系统安全

工程实现价值对齐：不可能的任务

RLxF 作为引入伦理保障的策略，尽管有其吸引力，但在实现 AI 价值对齐的雄心勃勃的项目中不可避免地失败。人类价值、需求和目标的多样性，以及人类所处情境的多样性，使得没有一种对齐技术可以成为一刀切的解决方案。

走向安全和伦理 AI 设计的整合方法

如果我们希望部署安全、伦理的 AI 系统，包括 LLM，那么 RLxF 所代表的狭隘工程方法必须扩大到包括通过社会技术和系统视角实现安全的概念。安全标准和伦理评估需要在使用背景中进行，并涵盖社会技术系统的各个层面。

结论

本文挑战了关于使用 RLxF 和 3H 实现 AI 安全和对齐的主张。从社会技术视角出发，我们对这一方法的理论和实践元素进行了批判，强调了其局限性、内在张力和矛盾。RLxF 可能适用于增强 LLM 的类人行为，但这种微调技术不会提升系统安全或伦理 AI，相反，它引发了新的问题。

参考文献
- Adam Dahlgren Lindström, et al. (2024). AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations. arXiv.
Q: 这篇论文试图解决什么问题？

A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要关注和批判性地评估了通过人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）方法来调整人工智能（AI）系统，尤其是大型语言模型（Large Language Models, LLMs），使其与人类价值观和意图一致的尝试。论文指出了这种方法在实现诚实（honesty）、无害（harmlessness）和有帮助（helpfulness）等广泛追求的对齐目标时存在的不足和局限性。

具体来说，论文试图解决的问题包括：
1. 理论基础的不足：RLHF方法在理论上如何捕捉人类伦理的复杂性，并为AI安全做出贡献存在疑问。
2. 实践实施的限制：在实际应用中，RLHF方法在确保AI系统符合人类价值观方面存在明显的局限性。
3. 内在的矛盾和冲突：RLHF的目标在追求诚实、无害和有帮助时存在内在的矛盾。
4. 伦理相关问题的忽视：在关于对齐和RLHF的讨论中，往往忽视了与伦理相关的重要问题，如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。
论文通过多学科的社会技术批评，揭示了RLHF方法的这些限制，并呼吁研究人员和实践者批判性地评估RLHF的社会技术影响，倡导在AI发展中采用更加细致和反思性的方法。

Q: 有哪些相关研究？

A: 论文中提到了多项相关研究，它们从不同角度探讨了人工智能对齐、强化学习、大型语言模型以及伦理问题。以下是一些在论文中引用的相关研究：
1. Askell et al., 2021: 提出了“有帮助、诚实、无害”作为AI对齐的标准，因为它们简单易记，并能捕捉我们对对齐AI的大多数期望。
2. Christiano et al., 2017: 展示了如何通过人类反馈来进行复杂的强化学习任务，而无需直接访问奖励模型。
3. Bender et al., 2021: 讨论了大型语言模型可能产生的有害、有毒和不真实的内容。
4. Dinan et al., 2021: 提出了一种框架和工具，用于预测端到端对话AI中的安全问题。
5. Jawahar et al., 2019: 研究了BERT模型对语言结构的学习情况。
6. Goldberg, 2019: 评估了BERT模型的句法能力。
7. Schulman et al., 2015: 提出了一种用于近策略优化（Proximal Policy Optimisation, PPO）的技术。
8. Leveson, 2012: 提出了“灵活性的诅咒”（curse of flexibility）概念，讨论了软件系统的灵活性如何导致安全问题。
9. Bai et al., 2022a, 2022b: 讨论了如何使用人类反馈来训练一个有益和无害的助手，以及通过AI反馈来提高无害性。
10. Casper et al., 2023: 提供了RLHF的开放问题和局限性的分类。
11. Ouyang et al., 2022: 研究了如何使用人类反馈来训练语言模型以遵循指令。
12. Liu et al., 2023, 2024: 分析了RLHF在确保LLMs与人类意图对齐方面的重要性，并探讨了诚实与有帮助之间的冲突。
13. Kirk et al., 2023a, 2023b, 2024a, 2024b: 探讨了LLM对齐的现有工作，以及RLHF对LLM泛化和多样性的影响。
14. Miceli and Posada, 2022: 讨论了数据生产装置，以及数据标注者可能受到的激励，以及他们如何影响AI系统的价值观。
15. Narayanan et al., 2023: 指出模型对齐可以防止意外伤害，但不能防止故意的伤害。
这些研究涵盖了从技术实现、伦理问题到系统安全等多个方面，为论文提供了丰富的背景和论据。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤来解决和批判性地评估AI对齐问题：
1. 多学科社会技术批评：结合技术、哲学和系统安全的观点，对RLxF（包括RLHF和RLAIF）技术的理论基础和实际实施进行详细分析和批评。
2. 分析RLHF和RLAIF技术：概述了这两种技术的基本工作原理和它们在优化大型语言模型（LLMs）方面的应用。
3. 指出3H标准的问题和局限性：深入探讨了诚实（honesty）、无害（harmlessness）、有帮助（helpfulness）这三大标准在实践中的不足和问题。
4. 讨论RLxF引发的伦理问题：分析了通过RLxF对齐AI时可能产生的伦理风险，如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。
5. 提出替代方案：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，该方法集成了社会技术分析、系统安全学术研究和伦理思考。
6. 强调系统安全的重要性：论文指出，为了实现AI的安全和伦理，需要采用包括组织和制度干预在内的社会技术系统方法。
7. 呼吁更多的反思和细致的方法：论文最后呼吁研究人员和实践者批判性地评估RLxF的社会技术影响，并倡导在AI发展中采用更加细致和反思性的方法。
8. 提出研究挑战：识别了在系统安全方面需要解决的新研究挑战，例如如何减少软件的复杂性，以及如何优先考虑更小、更具目的性的模型和架构。
通过这些步骤，论文不仅揭示了当前AI对齐方法的局限性，而且提出了一种更为全面和综合的方法来处理AI技术带来的挑战。

Q: 论文做了哪些实验？

A: 根据提供的论文内容，这篇论文似乎并没有直接进行实验操作，而是采用了批判性分析和理论探讨的方法。论文的主要内容集中在以下几个方面：
1. 理论分析：对通过人类反馈的强化学习（RLHF）方法进行理论上的评估，特别是针对大型语言模型（LLMs）的对齐问题。
2. 社会技术批评：从多学科的角度，对社会技术系统和AI对齐方法进行批评性分析，揭示了这些方法在理论上的不足和实践中的局限性。
3. 伦理问题探讨：讨论了RLHF和RLAIF方法可能引发的伦理问题，包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
4. 文献综述：引用了多篇相关研究，对现有文献进行综述，以支持论文中的观点和论据。
5. 问题和局限性的列举：列举了RLHF方法在技术实施上的挑战和局限性，如收集人类反馈、训练奖励模型和训练策略等方面的问题。
6. 替代方法的提出：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，强调了社会技术分析、系统安全学术研究和伦理思考的重要性。
7. 系统安全的重要性强调：讨论了系统安全在AI对齐中的作用，并提出了一些关于如何改进AI系统设计和反馈机制的建议。
总的来说，这篇论文更侧重于理论探讨和批判性分析，而不是实验研究。它通过分析现有文献、提出问题和局限性，以及讨论伦理和社会技术问题，来质疑和反思当前AI对齐方法的有效性和安全性。

Q: 有什么可以进一步探索的点？

A: 论文提出了一些关于人工智能对齐和强化学习从人类反馈（RLHF）方法的批判性观点，并指出了若干可以进一步探索的领域。以下是一些可能的研究方向：
1. 价值观的多样性和动态性：研究如何在AI系统中更好地处理和适应不同文化、社会和个人价值观的多样性和变化。
2. 伦理框架的集成：开发更全面的伦理框架，以指导AI系统的设计和决策过程，确保它们的行为符合广泛的伦理标准。
3. 社会技术系统方法：探索如何将社会技术系统的观点更深入地集成到AI开发中，以考虑技术部署的更广泛社会影响。
4. 系统安全和稳健性：研究如何提高AI系统的安全性和稳健性，特别是在面对故意的操纵和滥用时。
5. 用户界面和交互设计：研究如何设计用户界面和交互方式，以减少对用户的误导，并提高对AI系统能力和限制的透明度。
6. 数据和模型的偏见：深入研究和解决AI模型中的数据偏见问题，确保模型的公正性和无歧视性。
7. 可解释性和透明度：提高AI系统的可解释性，让用户和利益相关者更好地理解系统的决策过程。
8. 跨学科合作：促进不同学科之间的合作，如计算机科学、伦理学、社会学和心理学，以更全面地解决AI对齐问题。
9. 政策和法规：研究如何制定有效的政策和法规，以指导AI技术的发展和应用，确保其符合社会伦理和安全标准。
10. 长期影响评估：评估AI技术长期对社会结构和个人行为的影响，以及如何设计系统以减轻潜在的负面影响。
11. 技术替代方案：探索替代技术或方法，如更小规模、特定用途的AI模型，这些模型可能更容易进行需求工程和本地化适应。
12. 教育和公众参与：研究如何通过教育和公众参与提高对AI技术的理解，以及如何让更广泛的社会群体参与到AI伦理和政策的讨论中。
这些探索点可以帮助研究者、开发者和政策制定者更全面地理解和应对AI技术带来的挑战。

Q: 总结一下论文的主要内容

A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要探讨了通过人类反馈的强化学习（RLHF）方法在实现人工智能（AI）特别是大型语言模型（LLMs）与人类价值观和意图对齐方面的尝试，并对其存在的矛盾和局限性进行了批判性分析。以下是论文的主要内容总结：
1. 问题提出：论文指出RLHF方法被广泛用于改善AI系统的性能，尤其是LLMs，以期达到诚实、无害和有帮助的目标，但这种方法存在明显的局限性。
2. 技术背景：介绍了LLMs的基本概念，以及RLHF和基于AI反馈的强化学习（RLAIF）技术如何被应用于LLMs的微调过程。
3. 理论批评：从技术、哲学和系统安全的角度，对RLHF方法进行了批评，揭示了在捕捉人类伦理复杂性方面的不足。
4. 3H标准的局限性：详细分析了诚实、无害和有帮助这三大标准在实际应用中的问题和局限性。
5. 伦理问题探讨：讨论了RLHF可能引发的伦理问题，包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
6. 社会技术批评：强调了需要从社会技术系统的角度来评估RLHF的影响，而不仅仅是技术层面。
7. 替代方法提出：提出了一种超越纯技术观点的AI安全和伦理AI的替代方法，强调了社会技术系统分析、系统安全学术研究和伦理思考的重要性。
8. 系统安全的重要性：讨论了系统安全在AI对齐中的作用，并提出了一些关于如何改进AI系统设计和反馈机制的建议。
9. 结论：论文最后得出结论，RLHF方法虽然在某些方面有益，但不足以实现AI的安全和伦理，需要采取更加全面和细致的方法来处理AI技术带来的挑战。
10. 致谢：论文最后感谢了支持这项研究的机构和项目。
整体而言，论文对当前AI对齐方法的有效性和安全性提出了质疑，并呼吁采取更加综合的方法来应对AI发展中的伦理和社会技术问题。
2024 年 6 月 27 日

用对比学习优化本地监督：无辅助网络的高效方法

引言

反向传播（Backpropagation，简称 BP）自 1986 年提出以来，一直是深度学习的基本工具。然而，BP 存在两个固有的限制。首先，在正向和反向传播过程中需要权重对称，使得 BP 在生物学上难以实现（Liao et al., 2016）。虽然生物学上的逼真性和学习算法的有效性之间的因果关系尚未明确，但许多深度学习研究都尝试模拟人类的生物和认知过程（Fei et al., 2022；Taniguchi et al., 2022）。其次，正向传播只能在反向传播完全完成后才能启动（反向锁定），反之亦然（正向锁定），这导致计算效率低下，因为并行化受限。此外，由于权重梯度计算需要存储每一层的局部激活，内存使用也不高效。

为了解决这些问题，提出了几种 BP 替代方案。反馈对齐（Feedback Alignment，简称 FA）用固定的随机权重取代对称反馈权重，但仍受到正向/反向锁定的限制。其继任者直接反馈对齐（Direct Feedback Alignment，简称 DFA）直接将误差信号传播到每一层，以缓解反向锁定问题。然而，DFA 并没有解决正向锁定问题。为此，本地监督通过最小化局部损失来利用局部权重更新。具体而言，本地学习（Local Learning，简称 LL）使用模块化辅助网络进行局部 BP，以处理局部输出并与目标对齐进行局部损失计算。尽管辅助网络使现有的 LL 达到了与 BP 相当的性能，但每个模块都使用辅助网络显著增加了模型参数。

本地监督的新方向：前向学习

一种较新的本地监督方法完全消除了 BP 和辅助网络。本文称这种方法为前向学习（Forward Learning，简称 FL）。在 FL 中，每层的权重更新通过层特定的局部损失引导，避免了正向/反向锁定问题，显著提高了计算效率。在没有 BP 和辅助网络的情况下，实施 FL 的关键在于制定局部目标以进行损失计算。例如，前向前向算法（Forward-Forward，简称 FF）通过将独热编码标签叠加到图像上，定义局部目标，将它们视为图像中的单独像素。由于局部输出包含目标信息，基于 FF 的方法通过优化局部输出的自点积来实现对比学习目标。然而，这使得 FL 场景中的对比学习容易受到局部输出中与任务无关的信息的影响，导致性能不如 BP 和 LL。

我们的研究表明，辅助网络在减轻与任务无关信息的影响方面起着关键作用。针对没有辅助网络带来的挑战，我们提出了一种简单但有效的局部对比学习目标——词典对比学习（Dictionary Contrastive Learning，简称 DCL），它有效地将局部输出与标签嵌入向量对齐。我们评估了 DCL 的两个版本：一个使用静态标签嵌入向量，适用于 FL 场景；另一个使用自适应标签嵌入向量。值得注意的是，静态方法在 FL 场景中显著优于现有的 FL 基准，通过更有效地丢弃与任务无关的信息。而自适应方法展示了与 BP 和 LL 相当的性能，同时在参数和内存效率方面显著优于 LL。

背景

对比学习在表示学习中是一种强大的工具，其在 LL 和 FL 背景下的有效性也得到了证明。InfoPro（Wang et al., 2020）是一种 LL 方法，比较来自模块化辅助网络的局部特征。相比之下，基于 FF 的方法利用局部特征的自点积，因为这些特征包含标签信息。Wang 等人（2020）中，对于来自前向传递层的一批局部输出，局部对比损失定义如下：

[
L_{\text{contrast}} = – \frac{1}{i \ne j \cdot 1_{y_i=y_j}} \sum_{i \ne j} \left[1_{y_i=y_j} \log \frac{\exp(a_i^\top a_j / \tau)}{\sum_{k=1}^N 1_{i \ne k} \exp(a_i^\top a_k / \tau)} \right], \quad a_i = f_\phi(h_i),
]

其中 (\tau) 是温度超参数，(y \in {1, …, Z}) 是真实标签，(f_\phi) 是辅助网络。在公式（1）中，(a_i) 和 (a_j) 是正特征，满足 (y_i = y_j)。此函数旨在最大化正特征之间的相似性，同时最小化负特征之间的相似性。当辅助网络 (f_\phi) 是一个恒等函数时，该目标表示 FL 场景。为了方便起见，我们用 (L_{\text{feat}}) 来表示 (f_\phi(h) = h) 时的 (L_{\text{contrast}})。请注意，本文的主要目标是在没有辅助网络的情况下，通过对比学习提高性能。为此，(L_{\text{feat}}) 可以被视为将进一步详细阐述的基础框架。

尽管基于 FF 的方法和 InfoPro 利用对比学习概念来制定局部目标，但基于 FF 的方法性能不及 InfoPro（LL）。此外，在完全相同的设置下，我们比较了 (L_{\text{contrast}}) 和 (L_{\text{feat}}) 的性能，并报告了显著的性能差距。这些发现强调了辅助网络在局部对比学习中的重要性，为我们提出目标在没有辅助网络的情况下开发一个出色的局部对比学习框架奠定了基础。

方法

动机

为了在没有辅助网络的情况下利用局部对比学习提高模型性能，我们首先通过检查辅助网络的作用来设计方法。我们认为，(L_{\text{contrast}}) 和 (L_{\text{feat}}) 之间的显著性能差异可以归因于存在互信息 (I(h, r))，其中 (r) 是输入 (x) 中的任务无关变量。然后，给定一个任务相关变量 (y)，可以得出 (I(r, y) = 0)，因为互信息 (I) 表示通过观察另一个随机变量获得的关于一个随机变量的信息量。(L_{\text{feat}}) 最大化局部特征之间的相似性，而不是特征与标签之间的相似性。因此，最大化局部特征之间的相似性可能也会增加 (I(r+, rp))，误导模型认为任务无关信息是有意义的特征。

在这方面，辅助网络有能力过滤掉 (r)，减轻 (r) 在 LL 中的影响。然而，在没有辅助网络的 FL 中，(r) 的影响变得更加明显和有害。这可能解释了现有对比学习在 FL 场景中的性能较差。

词典对比损失

为了在 FL 中解决 (r) 的问题，我们提出了一种新颖的目标，直接最大化局部特征 (h) 与对应目标标签的嵌入向量之间的相似性。

将标签映射到嵌入向量

为了从每个目标标签 (y_z) 获得标签嵌入 (t_z)，我们定义一个嵌入映射函数 (f_m)。嵌入映射函数 (f_m: N \to R^{CD}) 是一个从标签到 CD 维度标签嵌入向量的一对一映射，可以直接与密集局部特征进行比较。每个标签嵌入向量 (t) 初始化为标准正态随机向量，其每个元素都是从标准正态分布中独立同分布的随机变量。对于 Z 类标签，我们有一个标签嵌入词典 (D_Z = {f_m(y_z) | y_z \in {1, …, Z}})，其中 (f_m(y_z) = t_z)。

局部特征

我们旨在优化标签嵌入向量 (t) 与局部特征 (h) 之间的相似性。首先，由于局部特征的形状可能因不同架构而异，我们将 (h) 的表示标准化。我们将第 l 层的局部特征表示为 (h_l \in R^{C_l \times K_l})，其中 (K_l) 是 (C_l) 维特征向量的数量。因为每层的 (C_l) 可能不同，我们定义标签嵌入向量的维度 (CD) 为 (C_l) 的最大值。对于全连接层（FC），我们将平坦化的输出向量 (h_{\text{flat}} \in R^{C_l \times K_l}) 重新整形为 (h_l \in R^{C_l \times H_l \times W_l})，其中 (C_l) 表示通道维度，而 (H_l) 和 (W_l) 表示特征图的高度和宽度。通过设置 (K_l = H_lW_l)，我们保持特征图中 (C_l) 维向量的完整性。为防止跨层 BP，我们使用停止梯度操作符 sg[·]，使得 (h_l = f_l(\text{sg}[h_{l-1}]))。

训练目标

最终预测层 (f_L) 的权重通过标准交叉熵损失进行更新。所有其他层 (f_l) 的权重通过词典对比损失 (L_{\text{dict}}) 更新。对于一批局部特征 ({h_n}_{n=1}^N)，我们最小化损失：

[
L_{\text{dict}} = – \log \frac{1}{N} \sum_{n=1}^N \frac{\exp(\langle \bar{h}n, t_z^+ \rangle)}{\sum{z’=1}^Z \exp(\langle \bar{h}n, t{z’} \rangle)},
]

其中我们定义 (\bar{h}n := \frac{1}{K} \sum{k=1}^K h_{n,k})，(\langle·, ·\rangle) 表示点积，标签嵌入向量 (t^+) 对应于 (h_n) 的标签。局部特征向量的维度可能因不同层而异。为了将 (t_z \in R^{CD}) 的向量维度对齐到 (\bar{h} \in R^{C_l})，我们为每层使用一维平均池化 (pool_l: R^{CD} \to R^{C_l})。

在本文中，我们仅在 FL 场景中应用静态标签嵌入向量，以应对层权重和标签嵌入权重不能同时更新的限制。技术上，这种限制使我们的自适应方法部分前向/后向锁定，尽管这种锁定在实际中是有限且可以忽略的。然而，为了公平评估完全前向/后向解锁的其他 FL 方法，我们的静态方法在整个训练过程中保持初始标签嵌入权重不变，使得 (t_{\text{static}} = \text{sg}[t_z])。相比之下，在不受 FL 特定限制的场景中，标签嵌入向量是自适应的，通过 (L_{\text{dict}}) 的误差信号在每层更新其权重。图 2 展示了使用 (L_{\text{dict}}) 的训练工作流程。我们在附录 B 中证明了最小化 (L_{\text{dict}}) 最大化了 (I(h, y)) 的下界。

与其他对比目标的比较

基于 InfoNCE（Oord et al., 2018）的对比目标因负样本数量的大小而敏感（Khosla et al., 2020；Radford et al., 2021；Chen et al., 2020）。这些对比目标，包括 (L_{\text{feat}})，通常使用批内负样本，并且随着批量大小 (N) 增大而表现出更好的性能（Wang et al., 2020；Lee et al., 2018）。相比之下，(L_{\text{dict}}) 中的负样本数量对应于 (Z – 1)。因此，(L_{\text{dict}}) 的有效性取决于类别数量。实验证明，较高的类别数量 (Z) 相对于使用静态标签嵌入向量的情况下，通常表现更好。然而，即使类别较少，竞争力性能仍能达到。

层级预测

最小化 (L_{\text{dict}}) 最大化了局部特征 (h) 与其对应标签嵌入向量 (t^+) 之间的相似性，同时最小化与非对应标签嵌入向量的相似性。利用 (L_{\text{dict}}) 的这一性质，(D_Z) 可用于推理而无需最终线性分类器 (f_L)。通过选择与特征向量相似性最高的目标标签，可以生成预测结果：

[
\hat{y} = \arg \max_z \langle \bar{h}, t_z \rangle.
]

因此，在每一层都可以进行预测。此外，这允许层级预测的加权和作为全局预测。Belilovsky 等人（2019）和 Zhao 等人（2023）的实验表明，这种方法优于单独由 (f_L) 进行的预测。层级预测的实验结果见附录 C。

实验

实验设置

由于 FL 和 LL 之间存在显著的性能差异，我们进行单独的比较。在 FL 场景中，我们使用静态标签嵌入的静态方法 DCL-S，使用简单的全连接（FC）和卷积（Conv）架构来评估 FL 基准。对于我们的自适应方法 DCL，我们采用 Nøkland 和 Eidnes（2019）使用的 VGG8B 架构。

主要结果

与 FL 方法的比较

我们首先将静态方法 DCL-S 与 BP 和其他 FL 方法进行比较。表 1 和表 2 报告了在 MNIST、CIFAR-10 和 CIFAR-100 数据集上的测试错误率和参数数量。在 MNIST 上，CaFo 是 FL 模型中表现最好的。然而，对于更具现实意义的数据集（如 CIFAR-10 和 CIFAR-100），我们的目标显著优于其他 FL 方法。表 1 显示，尽管我们使用的卷积模型参数更少，但其性能显著优于其他 FL 模型。我们的全连接模型在 CIFAR-10 和 CIFAR-100 上同样优于其他全连接模型，如表 2 所示。此外，我们的方法在所有数据集上始终优于 Lfeat。

Approach	MNIST Params	MNIST Err	CIFAR-10 Params	CIFAR-10 Err	CIFAR-100 Params	CIFAR-100 Err
BP	152K	2.63	153K	22.84	1.43M	46.41
FF	243K	3.21	243K	25.86	2.4M	59.24
PFF	1.8M	1.48	4.1M	32.57	19.2M	65.02
CaFo	152K	11.55	153K	43.67	1.43M	67.69
DRTP	243K	3.21	243K	25.86	2.4M	59.24
SymBa	1.87M	1.29	18.9M	34.73	19.2M	65.94
Lfeat	1.87M	1.46	18.9M	35.12	19.2M	66.48
DCL-S	1.87M	1.46	18.9M	35.12	19.2M	66.48

与 LL 方法的比较

接下来，我们将自适应方法 DCL 与 LL 和 LL-bpf 进行比较。表 3 展示了在各种数据集上的测试错误率。我们的方法在 SVHN 和 STL-10 数据集上优于 BP 基线。对于每个数据集，我们的模型在与使用单一局部损失训练的 LL 模型相比时表现出竞争力。尽管我们的模型总体表现良好，但用两种局部损失函数训练的 LL-predsim 仍然优于我们的方法。然而，在所有数据集中，我们的模型始终优于 LL-predsim 的无 BP 版本 LL-bpf。值得注意的是，LL 的辅助网络显著增加了参数数量，而我们的方法引入了更少的额外参数：(Z \times CD)。表 4 强调了我们的方法在内存效率上优于 LL 和 BP，且比 LL 需要更少的参数。

Loss Type	Method	MNIST	F-MNIST	CIFAR-10	CIFAR-100	SVHN	STL-10
Single Global Loss	BP	0.26	4.53	5.99	26.20	2.29	33.08
Two Local Losses	LL-contrec	*0.65	*5.71	*9.02	*31.35	*2.34	*29.74
	LL-predsim	0.31	4.65	5.58	24.10	1.74	20.51
	LL-bpf	*0.35	*5.68	9.02	*37.60	*2.31	*26.12
Single Local Loss	LL-cont	*0.37	*5.92	*7.72	*31.19	*2.29	*26.83
	LL-pred	0.40	5.66	8.40	29.30	2.12	26.83
	LL-sim	0.65	5.12	7.16	32.60	1.89	23.15
Single Local Loss	DCL	0.33	5.52	8.64	31.75	2.19	22.87

Method	MNIST, F-MNIST Memory	CIFAR-10, SVHN Memory	CIFAR-100 Memory	STL-10 Memory
BP	847 MiB	1086 MiB	1088 MiB	2315 MiB
LL-contrec	811 MiB	1049 MiB	1050 MiB	5954 MiB
LL-predsim	1038 MiB	1291 MiB	1310 MiB	2594 MiB
LL-bpf	708 MiB	895 MiB	897 MiB	1851 MiB
LL-cont	870 MiB	1.43M MiB	890 MiB	1826 MiB
LL-pred	933 MiB	1154 MiB	1156 MiB	2290 MiB
DCL	580 MiB	747 MiB	751 MiB	1589 MiB

进一步分析和讨论

对任务无关信息的鲁棒性

为了重新审视我们在第 4.1 节中讨论的动机，我们分析了我们的目标与 Lfeat 和 Lcontrast 在任务无关信息方面的区别，如图 3 所示。表 1 和表 2 强调了 Ldict 与 Lfeat 之间的性能差距，尤其是在卷积网络中。我们通过任务无关信息的视角解释这些差异。正如我们的假设，图 3 显示了 Lfeat 遇到了干扰问题，即 (I(h, r)) 没有从基线减少。相比之下，Ldict 从第四层开始有效地减少了 (I(h, r))，最终与辅助网络（Lcontrast）实现的 (I(h, r)) 水平相匹配，即使标签嵌入向量是静态的。附录 J.2.7 详细介绍了估计互信息的方法。

自适应嵌入的有效性

图 4 描述了自适应嵌入与静态嵌入在 CIFAR-10 和 CIFAR-100 上的有效性。使用自适应标签嵌入词典 (D_Z) 训练的模型始终优于使用静态标签嵌入向量的模型，无论比较的静态嵌入是随机的（(D_N)）还是正交的（(D_\perp)）。特别是，在 CIFAR-100 上，卷积架构的性能差距比 CIFAR-10 更明显。

解释性与标签嵌入

图 5 展示了在 CIFAR-10 上用 VGG8B 训练的模型中，最后一层预测的前两名标签的显著性图可视化结果。这些显著性图通过标签嵌入向量与单个局部特征向量的点积生成，每个局部特征向量表示图像中的一个区域。对于前一名标签，显著性图与输入图像中与该标签相关的区域清晰对齐。例如，”Horse” 标签的显著性与马的身体精确匹配。

显著性图也能合理解释错误标签的高置信度。图 5 中，”Horse” 图像中与第二名标签 “Deer” 相关的显著性表明模型将马头附近的两棵树误认为是鹿角。这种误解是因为鹿角通常为 “Deer” 标签生成较高的显著性，如 “Deer” 图像中与第一名标签 “Deer” 相关的显著性所示。更多示例见附录 K.3。

自适应嵌入的语义属性

图 6 展示了 CIFAR-100 上自适应标签嵌入向量的语义关系，CIFAR-100 包含 20 个超级标签，每个超级标签包含 5 个子标签。这些向量的聚类突显了它们的语义学习能力，类似于图 5 中与标签特定显著特征的对齐。同一超级标签的嵌入往往聚集在一起，而语义相似但不同超级标签的嵌入也显示出接近。例如，”forest” 更接近 “trees”，而 “chimpanzee” 更接近 “people” 而非其他超级标签组内的嵌入。更多关于超级标签的实验见附录 D。

自适应标签嵌入与混淆率

图 7 捕捉了 CIFAR-10 上混淆率与自适应标签嵌入相似性的关系。对于标签 (y_i) 和 (y_j)，混淆率定义为错误预测 (y_i) 为 (y_j) 的测试错误率的平均值。图 7 显示，随着标签之间混淆率的增加，这些标签的嵌入表示变得更为不同。这表明，当模型难以区分两个标签时，它通过动态调整标签嵌入空间以便更好地分离标签。

平均池化与投影的比较

我们考虑一个全连接层 (f_l^P: R^{CD} \to R^{C_l}) 作为替代 Eq. (2) 中使用的一维平均池化 (pool_l)。线性投影层 (f_l^P) 将 CD 维度标签嵌入向量映射到 (C_l) 维度标签嵌入向量，使得 (f_l^P(t_z) = t_l^z)。表 5 显示，平均池化在性能和内存/参数效率上优于线性投影。

结论

本文发现，传统对比学习目标在没有辅助网络的情况下效率受限，主要原因是任务无关信息的存在。为了解决这一挑战，我们提出了一种新颖的目标 DCL，直接将局部特征与标签特定的嵌入向量对齐。即使没有辅助网络，我们的方法也能有效丢弃任务无关信息，显著优于其他 FL 方法。此外，我们的方法使用自适应标签嵌入向量，达到与 BP 和 LL 相当的性能，同时在参数/内存效率方面优于 LL。我们希望这项工作能为未来研究铺平道路，将 DCL 定位为 BP 的强大替代方案。

参考文献

Liao, Q., Leibo, J.Z., & Poggio, T. (2016). How important is weight symmetry in backpropagation? In AAAI.
Fei, Y., Taniguchi, T., et al. (2022). Emulating human biological and cognitive processes in deep learning.
Nøkland, A., & Eidnes, L.H. (2019). Training neural networks with local error signals.
Belilovsky, E., et al. (2020). Decoupled greedy learning of CNNs.
Pathak, D., et al. (2022). Learning representations by maximizing mutual information across views.
Oord, A., et al. (2018). Representation learning with contrastive predictive coding.

2024 年 6 月 27 日

博客

AI 通过人类反馈强化学习实现对齐？矛盾与局限

引言

背景

人类反馈强化学习

AI 反馈强化学习

技术批评

灵活性的诅咒

RLxF 的局限性

无害性

诚实性

有用性

对齐

RLxF 的内部张力和伦理问题

增加的有用性可能导致欺骗

谄媚：有用性和无害性的错位

RLxF 可能导致价值强加和文化同质化

RLxF 增加了伦理不透明性

重启安全与对齐：整合 AI 伦理与系统安全

工程实现价值对齐：不可能的任务

走向安全和伦理 AI 设计的整合方法

结论

参考文献

用对比学习优化本地监督：无辅助网络的高效方法

引言

本地监督的新方向：前向学习

相关工作

本地学习

前向学习

背景

方法

动机

词典对比损失

将标签映射到嵌入向量

局部特征

训练目标

与其他对比目标的比较

层级预测

实验

实验设置

主要结果

与 FL 方法的比较

与 LL 方法的比较

进一步分析和讨论

对任务无关信息的鲁棒性

自适应嵌入的有效性

解释性与标签嵌入

自适应嵌入的语义属性

自适应标签嵌入与混淆率

平均池化与投影的比较

结论

参考文献