标签: AGI

  • 实时去偏:解释导向的人类监督机器学习系统决策

    引言

    机器学习(Machine Learning, ML)系统现在广泛应用于人类生活的各个关键领域,如招聘、金融和医疗等。这些系统可以降低人为错误,提高效率和可扩展性,并增强决策过程的准确性。然而,随着ML系统在与人类密切相关的领域中的使用日益增多,关于其决策公平性的担忧也在增加。例如,2018年,路透社发现亚马逊的简历筛选算法存在年龄和性别偏见,该算法对包含“女性”一词的简历和显示出较老申请者的毕业年份的简历进行了降级处理。尽管亚马逊迅速废除了该有偏见的算法,但很可能在其意识到不公平影响之前,该算法已被部署了数月。为了减少此类伦理问题,在ML系统的开发和部署前后持续进行公平性测试是至关重要的。

    目前,软件工程社区已经做出了各种努力,借鉴传统软件测试技术,首先搜索并减轻ML中的歧视。例如,Udeshi等人介绍了AEQUITAS,这是一种探索ML模型输入空间中的歧视性实例的公平性测试技术,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。虽然当前的方法已被证明是有效的,但它们主要集中在开发阶段检测和解决歧视问题。在ML系统部署后的操作期间进行公平性测试的研究相对较少。为了解决这一差距,本研究提出了一种框架,用于持续监控已部署的ML系统,以评估其公平性。

    背景

    在讨论公平性、公平性测试、反事实解释和人类审查之前,我们需要先了解一些基本术语。

    公平性

    在ML系统中的决策公平性是指不存在基于个人或群体固有或获得属性的偏见或偏好。制定公平性是解决公平性问题和开发公平ML模型的第一步。在简单的术语中,假设ML预测模型h在决策时使用了包含敏感属性S和其他属性Z的数据集进行训练。公平性可表示为:

        \[F(X, Y, h, S, Z) = h(X, S, Z) ≈ h(X, S', Z)\]

    这意味着模型h在去除任何潜在偏见后,对同一组个体应做出相同的决策。

    个体公平性

    个体公平性确保相似的个体无论其保护属性如何,都应得到相似的结果。假设X代表一组属性(或特征),Q代表一组受保护的属性。个体公平性定义为:

        \[f(x_i) = f(x_{i'})\]

    其中,f为ML分类器,x_ix_{i'}代表具有相似非保护属性但可能具有不同保护属性的两个个体。

    公平性测试

    公平性测试是软件测试的一个分支,专注于暴露ML系统中的公平性漏洞。公平性测试可以分为离线和在线测试。离线公平性测试是在模型开发期间进行的,仅评估模型在给定训练数据上的公平性。相反,在线公平性测试是在ML系统部署后,使用实际输入数据持续监控和评估其公平性。

    反事实解释

    反事实解释是一种识别改变给定预测所需的最小变化的技术。通过提供与观察结果相似但产生不同结果的特定数据实例,反事实解释帮助理解某些因素对结果的直接影响。反事实解释的公式如下:

        \[c = \arg\min \text{loss}(f(c), y) + |x - c|\]

    其中,x为输入特征,f为模型,y为模型的输出,c为导致不同输出的反事实实例。

    将人类审查嵌入ML系统

    在ML系统的自动决策过程中,嵌入人类审查和监督(即人类在环)可以有效减少系统中的偏见。人类审查的主要目的是对ML模型的输出进行最终检查,以确保决策公平、无偏和准确。人类审查通常作为回顾性审查进行,即在ML系统运行后对其决策进行审查。

    相关工作

    文献中提出了多种方法来识别ML系统中的个体歧视。例如,Galhotra等人介绍了Themis,通过随机抽样输入空间来创建测试案例,并通过观察系统在测试中的行为来评估歧视性事件的频率。Udeshi等人提出了AEQUITAS,一种双阶段搜索的公平性测试技术,探索输入空间中的歧视性实例,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。

    与现有方法相比,我们的工作聚焦于在线公平性测试,评估ML系统在运行期间的公平性。

    方法

    本节介绍了我们提出的概念模型。该模型旨在实时监控和缓解ML系统中的偏见,如贷款申请系统。过程如下图所示:

    反事实生成

    反事实生成过程包括输入一个输入实例x,并使用预训练的ML模型f生成反事实实例c_1, c_2, …, c_n,这些实例具有不同的保护属性组合。

    偏见检测

    自动偏见检测组件分析反事实生成过程的输出,以确定是否存在对原始实例的歧视。如果存在反事实示例,则会标记为需要人类审查;否则,ML模型的决策保持不变。

    人类审查

    人类审查在评估ML系统的公平性方面起着关键作用。自动偏见检测组件标记的歧视性实例和相应的反事实示例会传递给人类审查组件进行最终评估。人类审查提供了对系统行为的全面理解,允许在运行时识别和纠正不公平的偏见。

    使用案例示例

    示例1:医疗系统

    在医疗系统中,使用ML系统评估患者并预测再入院的可能性。如果模型对某些人口群体做出了有偏见的决定,可以通过反事实解释和自动偏见检测组件检测到这一偏见。

    示例2:教育系统

    在教育系统中,模型可以用于监控和解决招生委员会决策过程中的偏见。例如,反事实生成和自动偏见检测组件可以识别少数群体申请者在招生过程中是否被不公平地引导。

    示例3:贷款/信用评分系统

    在贷款/信用评分系统中,模型可以识别对黑人和少数群体申请者的偏见。利用反事实解释和自动偏见检测组件,这些偏见可以被标记并进行人类审查。

    示例4:刑事司法系统

    在刑事司法系统中,模型可以用于预测被告再犯的可能性。反事实生成和自动偏见检测组件可以揭示模型对黑人被告的歧视性决策。

    示例5:招聘系统

    在招聘系统中,模型可以识别对女性候选人的偏见。通过反事实生成和自动偏见检测组件,可以揭示系统的有偏见决策。

    结论

    本文提出了一个概念模型,用于通过人类审查和反事实解释在实时中跟踪和纠正个体歧视。我们的框架利用反事实解释的力量来识别ML系统中的歧视实例,并包括一个人类审查组件来减轻这些偏见。未来,我们计划构建并部署该系统,并进行公平性测试以确保其在实际操作中公正和公平。

    参考文献

    1. Mamman, Hussaini et al., “Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions”, 13th Computer Science On-line Conference, Lecture Notes on Networks and Systems, Springer, April 2024.
    2. Udeshi, S., et al., “AEQUITAS: A Fairness Testing Technique for Machine Learning Systems”, 2018.
    3. Galhotra, S., et al., “Themis: Automatically Testing Software for Discrimination”, 2017.
    4. Kusner, M., et al., “Counterfactual Fairness”, 2017.
    5. Yang, S., et al., “BiasRV: Detection of Gender Discrimination in Sentiment Analysis Systems”, 2020.
  • AI 通过人类反馈强化学习实现对齐?矛盾与局限

    引言

    我们选择“有用、诚实、无害”作为标准,因为它们简单易记,并且似乎涵盖了我们希望对齐的 AI 系统的大部分内容。

    人类反馈强化学习(RLHF)展示了一种确保人工智能(AI)监督和安全的方法,通过价值对齐实现。这种方法最近在提高大型语言模型(LLM)的性能方面发挥了重要作用,使用 RLHF 进行微调,以生成更“自然”的文本,并在聊天机器人设置中生成合理的对话响应。AI 公司和研究人员常常声称,RLHF 微调确保了他们市场和销售的 LLM 符合(或“对齐”)人类价值观,特别是通过以“有用”、“无害”和“诚实”(3H)方式回应。这种“价值对齐”通常通过一个过程实现,在这个过程中,众包工人根据 3H 标准对 LLM 输出进行排序,例如评价一个回答的有用性。

    本文对 RLHF 是否适合作为 AI 安全和伦理 AI 方法进行了详细分析和批评。我们结合技术、哲学和系统安全的视角,揭示了 LLM、RLHF、对齐目标以及构建和提供通用 AI 系统之间复杂互动中的根本局限和矛盾。

    背景

    人类反馈强化学习

    RLHF 作为一种机器学习技术,利用人类偏好或注释来优化 LLM。RLHF 被认为是 OpenAI 的 ChatGPT、Anthropic 的 Claude 和 Meta 的 Llama 等成功的背后技术。该技术通常在已经预训练的 LLM 上作为最后的微调步骤进行。通过众包工人对模型输出进行排序,人类偏好数据集被创建,随后训练奖励模型,用于优化 LLM 的输出策略。

    AI 反馈强化学习

    尽管 RLHF 在限制或阻止生成不良输出方面取得了一定成效,但其仍有局限性。高质量的人类标签是实现 RLHF 最大效益所必需的,这使得扩展过程非常困难。因此,AI 反馈强化学习(RLAIF)被提出以减轻这种瓶颈而不影响性能。RLAIF 涉及使用预训练的大型语言模型提供输入,包括任务描述和示例,从而输出偏好数据。

    技术批评

    RLHF 的技术批评主要集中在收集人类反馈、训练奖励模型和训练策略方面。许多挑战被认为是可以在 RLHF 框架内解决的,而另一些则需要替代方法。

    灵活性的诅咒

    LLM 现被构建为通用代理,这带来了软件架构的复杂性和不可解性,从而阻碍了系统所需功能的适当表达、工程和验证。这种现象在系统安全领域得到了充分理解,被称为灵活性的诅咒。计算系统的更大能力和灵活性导致了许多严重事故,因为软件的复杂性使得“没有人能理解软件应该做什么或者不应该做什么”。

    RLxF 的局限性

    无害性

    AI 不应直接或通过潜台词或偏见表现出冒犯或歧视。然而,所谓的“最不有害”选择仍然可能包含有害元素,这样的选择往往只是相对最少的伤害,而不是彻底避免伤害。

    诚实性

    AI 应该提供准确的信息,并在表达不确定性时不误导用户。然而,LLM 缺乏内省能力,无法真正表达对其响应的信心水平,这使得诚实性成为一个复杂的问题。

    有用性

    AI 应该尽可能简洁和高效地完成任务或回答问题。然而,过度追求有用性可能会导致在某些情况下支持有害请求,从而危及无害性。

    对齐

    对齐是确保 LLM 行为符合人类价值观和偏好的过程。然而,由于不存在单一的普遍价值集,不同文化和社会群体的价值观可能存在显著差异,这使得对齐成为一个复杂且有争议的问题。

    RLxF 的内部张力和伦理问题

    增加的有用性可能导致欺骗

    RLxF 可能会增加 LLM 输出的类人性,从而误导用户,使其误以为自己在与另一个人类代理互动。这种误导可能会导致用户对 LLM 输出的错误信任或不当使用。

    谄媚:有用性和无害性的错位

    LLM 倾向于迎合用户的观点,这种行为被称为谄媚。这种行为部分源于 RLxF,因为假设用户是正确的可以提高表面上的有用性和无害性。然而,这可能导致牺牲真相(或“诚实”)以换取表面的有用性和无害性。

    RLxF 可能导致价值强加和文化同质化

    RLxF 通过使 LLM 输出更加可预测、安全和可控,可能会在无意中加强某些文化和社会群体的价值观,从而限制了其他群体的自主性。这种同质化可能会导致语言使用的多样性减少,不适当地影响不同社区的表达实践。

    RLxF 增加了伦理不透明性

    RLxF 导致了相当程度的“伦理不透明性”。偏好数据的标准往往模糊且未定义,用户和公众通常不知道谁在生成这些偏好数据。这种不透明性使得很难评估 RLxF 对商业 LLM 的具体影响。

    重启安全与对齐:整合 AI 伦理与系统安全

    工程实现价值对齐:不可能的任务

    RLxF 作为引入伦理保障的策略,尽管有其吸引力,但在实现 AI 价值对齐的雄心勃勃的项目中不可避免地失败。人类价值、需求和目标的多样性,以及人类所处情境的多样性,使得没有一种对齐技术可以成为一刀切的解决方案。

    走向安全和伦理 AI 设计的整合方法

    如果我们希望部署安全、伦理的 AI 系统,包括 LLM,那么 RLxF 所代表的狭隘工程方法必须扩大到包括通过社会技术和系统视角实现安全的概念。安全标准和伦理评估需要在使用背景中进行,并涵盖社会技术系统的各个层面。

    结论

    本文挑战了关于使用 RLxF 和 3H 实现 AI 安全和对齐的主张。从社会技术视角出发,我们对这一方法的理论和实践元素进行了批判,强调了其局限性、内在张力和矛盾。RLxF 可能适用于增强 LLM 的类人行为,但这种微调技术不会提升系统安全或伦理 AI,相反,它引发了新的问题。

    参考文献

    • Adam Dahlgren Lindström, et al. (2024). AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations. arXiv.

    Q: 这篇论文试图解决什么问题?

    A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要关注和批判性地评估了通过人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法来调整人工智能(AI)系统,尤其是大型语言模型(Large Language Models, LLMs),使其与人类价值观和意图一致的尝试。论文指出了这种方法在实现诚实(honesty)、无害(harmlessness)和有帮助(helpfulness)等广泛追求的对齐目标时存在的不足和局限性。

    具体来说,论文试图解决的问题包括:

    1. 理论基础的不足:RLHF方法在理论上如何捕捉人类伦理的复杂性,并为AI安全做出贡献存在疑问。
    2. 实践实施的限制:在实际应用中,RLHF方法在确保AI系统符合人类价值观方面存在明显的局限性。
    3. 内在的矛盾和冲突:RLHF的目标在追求诚实、无害和有帮助时存在内在的矛盾。
    4. 伦理相关问题的忽视:在关于对齐和RLHF的讨论中,往往忽视了与伦理相关的重要问题,如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。

    论文通过多学科的社会技术批评,揭示了RLHF方法的这些限制,并呼吁研究人员和实践者批判性地评估RLHF的社会技术影响,倡导在AI发展中采用更加细致和反思性的方法。

    Q: 有哪些相关研究?

    A: 论文中提到了多项相关研究,它们从不同角度探讨了人工智能对齐、强化学习、大型语言模型以及伦理问题。以下是一些在论文中引用的相关研究:

    1. Askell et al., 2021: 提出了“有帮助、诚实、无害”作为AI对齐的标准,因为它们简单易记,并能捕捉我们对对齐AI的大多数期望。
    2. Christiano et al., 2017: 展示了如何通过人类反馈来进行复杂的强化学习任务,而无需直接访问奖励模型。
    3. Bender et al., 2021: 讨论了大型语言模型可能产生的有害、有毒和不真实的内容。
    4. Dinan et al., 2021: 提出了一种框架和工具,用于预测端到端对话AI中的安全问题。
    5. Jawahar et al., 2019: 研究了BERT模型对语言结构的学习情况。
    6. Goldberg, 2019: 评估了BERT模型的句法能力。
    7. Schulman et al., 2015: 提出了一种用于近策略优化(Proximal Policy Optimisation, PPO)的技术。
    8. Leveson, 2012: 提出了“灵活性的诅咒”(curse of flexibility)概念,讨论了软件系统的灵活性如何导致安全问题。
    9. Bai et al., 2022a, 2022b: 讨论了如何使用人类反馈来训练一个有益和无害的助手,以及通过AI反馈来提高无害性。
    10. Casper et al., 2023: 提供了RLHF的开放问题和局限性的分类。
    11. Ouyang et al., 2022: 研究了如何使用人类反馈来训练语言模型以遵循指令。
    12. Liu et al., 2023, 2024: 分析了RLHF在确保LLMs与人类意图对齐方面的重要性,并探讨了诚实与有帮助之间的冲突。
    13. Kirk et al., 2023a, 2023b, 2024a, 2024b: 探讨了LLM对齐的现有工作,以及RLHF对LLM泛化和多样性的影响。
    14. Miceli and Posada, 2022: 讨论了数据生产装置,以及数据标注者可能受到的激励,以及他们如何影响AI系统的价值观。
    15. Narayanan et al., 2023: 指出模型对齐可以防止意外伤害,但不能防止故意的伤害。

    这些研究涵盖了从技术实现、伦理问题到系统安全等多个方面,为论文提供了丰富的背景和论据。

    Q: 论文如何解决这个问题?

    A: 论文通过以下几个步骤来解决和批判性地评估AI对齐问题:

    1. 多学科社会技术批评:结合技术、哲学和系统安全的观点,对RLxF(包括RLHF和RLAIF)技术的理论基础和实际实施进行详细分析和批评。
    2. 分析RLHF和RLAIF技术:概述了这两种技术的基本工作原理和它们在优化大型语言模型(LLMs)方面的应用。
    3. 指出3H标准的问题和局限性:深入探讨了诚实(honesty)、无害(harmlessness)、有帮助(helpfulness)这三大标准在实践中的不足和问题。
    4. 讨论RLxF引发的伦理问题:分析了通过RLxF对齐AI时可能产生的伦理风险,如用户友好性与欺骗、灵活性与可解释性、系统安全之间的权衡。
    5. 提出替代方案:提出了一种超越纯技术观点的AI安全和伦理AI的替代方法,该方法集成了社会技术分析、系统安全学术研究和伦理思考。
    6. 强调系统安全的重要性:论文指出,为了实现AI的安全和伦理,需要采用包括组织和制度干预在内的社会技术系统方法。
    7. 呼吁更多的反思和细致的方法:论文最后呼吁研究人员和实践者批判性地评估RLxF的社会技术影响,并倡导在AI发展中采用更加细致和反思性的方法。
    8. 提出研究挑战:识别了在系统安全方面需要解决的新研究挑战,例如如何减少软件的复杂性,以及如何优先考虑更小、更具目的性的模型和架构。

    通过这些步骤,论文不仅揭示了当前AI对齐方法的局限性,而且提出了一种更为全面和综合的方法来处理AI技术带来的挑战。

    Q: 论文做了哪些实验?

    A: 根据提供的论文内容,这篇论文似乎并没有直接进行实验操作,而是采用了批判性分析和理论探讨的方法。论文的主要内容集中在以下几个方面:

    1. 理论分析:对通过人类反馈的强化学习(RLHF)方法进行理论上的评估,特别是针对大型语言模型(LLMs)的对齐问题。
    2. 社会技术批评:从多学科的角度,对社会技术系统和AI对齐方法进行批评性分析,揭示了这些方法在理论上的不足和实践中的局限性。
    3. 伦理问题探讨:讨论了RLHF和RLAIF方法可能引发的伦理问题,包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
    4. 文献综述:引用了多篇相关研究,对现有文献进行综述,以支持论文中的观点和论据。
    5. 问题和局限性的列举:列举了RLHF方法在技术实施上的挑战和局限性,如收集人类反馈、训练奖励模型和训练策略等方面的问题。
    6. 替代方法的提出:提出了一种超越纯技术观点的AI安全和伦理AI的替代方法,强调了社会技术分析、系统安全学术研究和伦理思考的重要性。
    7. 系统安全的重要性强调:讨论了系统安全在AI对齐中的作用,并提出了一些关于如何改进AI系统设计和反馈机制的建议。

    总的来说,这篇论文更侧重于理论探讨和批判性分析,而不是实验研究。它通过分析现有文献、提出问题和局限性,以及讨论伦理和社会技术问题,来质疑和反思当前AI对齐方法的有效性和安全性。

    Q: 有什么可以进一步探索的点?

    A: 论文提出了一些关于人工智能对齐和强化学习从人类反馈(RLHF)方法的批判性观点,并指出了若干可以进一步探索的领域。以下是一些可能的研究方向:

    1. 价值观的多样性和动态性:研究如何在AI系统中更好地处理和适应不同文化、社会和个人价值观的多样性和变化。
    2. 伦理框架的集成:开发更全面的伦理框架,以指导AI系统的设计和决策过程,确保它们的行为符合广泛的伦理标准。
    3. 社会技术系统方法:探索如何将社会技术系统的观点更深入地集成到AI开发中,以考虑技术部署的更广泛社会影响。
    4. 系统安全和稳健性:研究如何提高AI系统的安全性和稳健性,特别是在面对故意的操纵和滥用时。
    5. 用户界面和交互设计:研究如何设计用户界面和交互方式,以减少对用户的误导,并提高对AI系统能力和限制的透明度。
    6. 数据和模型的偏见:深入研究和解决AI模型中的数据偏见问题,确保模型的公正性和无歧视性。
    7. 可解释性和透明度:提高AI系统的可解释性,让用户和利益相关者更好地理解系统的决策过程。
    8. 跨学科合作:促进不同学科之间的合作,如计算机科学、伦理学、社会学和心理学,以更全面地解决AI对齐问题。
    9. 政策和法规:研究如何制定有效的政策和法规,以指导AI技术的发展和应用,确保其符合社会伦理和安全标准。
    10. 长期影响评估:评估AI技术长期对社会结构和个人行为的影响,以及如何设计系统以减轻潜在的负面影响。
    11. 技术替代方案:探索替代技术或方法,如更小规模、特定用途的AI模型,这些模型可能更容易进行需求工程和本地化适应。
    12. 教育和公众参与:研究如何通过教育和公众参与提高对AI技术的理解,以及如何让更广泛的社会群体参与到AI伦理和政策的讨论中。

    这些探索点可以帮助研究者、开发者和政策制定者更全面地理解和应对AI技术带来的挑战。

    Q: 总结一下论文的主要内容

    A: 这篇论文《AI ALIGNMENT THROUGH REINFORCEMENT LEARNING FROM HUMAN FEEDBACK? CONTRADICTIONS AND LIMITATIONS》主要探讨了通过人类反馈的强化学习(RLHF)方法在实现人工智能(AI)特别是大型语言模型(LLMs)与人类价值观和意图对齐方面的尝试,并对其存在的矛盾和局限性进行了批判性分析。以下是论文的主要内容总结:

    1. 问题提出:论文指出RLHF方法被广泛用于改善AI系统的性能,尤其是LLMs,以期达到诚实、无害和有帮助的目标,但这种方法存在明显的局限性。
    2. 技术背景:介绍了LLMs的基本概念,以及RLHF和基于AI反馈的强化学习(RLAIF)技术如何被应用于LLMs的微调过程。
    3. 理论批评:从技术、哲学和系统安全的角度,对RLHF方法进行了批评,揭示了在捕捉人类伦理复杂性方面的不足。
    4. 3H标准的局限性:详细分析了诚实、无害和有帮助这三大标准在实际应用中的问题和局限性。
    5. 伦理问题探讨:讨论了RLHF可能引发的伦理问题,包括用户友好性与欺骗、灵活性与可解释性、系统安全等方面的权衡。
    6. 社会技术批评:强调了需要从社会技术系统的角度来评估RLHF的影响,而不仅仅是技术层面。
    7. 替代方法提出:提出了一种超越纯技术观点的AI安全和伦理AI的替代方法,强调了社会技术系统分析、系统安全学术研究和伦理思考的重要性。
    8. 系统安全的重要性:讨论了系统安全在AI对齐中的作用,并提出了一些关于如何改进AI系统设计和反馈机制的建议。
    9. 结论:论文最后得出结论,RLHF方法虽然在某些方面有益,但不足以实现AI的安全和伦理,需要采取更加全面和细致的方法来处理AI技术带来的挑战。
    10. 致谢:论文最后感谢了支持这项研究的机构和项目。

    整体而言,论文对当前AI对齐方法的有效性和安全性提出了质疑,并呼吁采取更加综合的方法来应对AI发展中的伦理和社会技术问题。

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 借一步网
Page Stats: PV: 2362 | UV: 1252
Last updated: 2025-06-26 21:37:30
沪ICP备2024052574号-1