实时去偏:解释导向的人类监督机器学习系统决策

引言

机器学习(Machine Learning, ML)系统现在广泛应用于人类生活的各个关键领域,如招聘、金融和医疗等。这些系统可以降低人为错误,提高效率和可扩展性,并增强决策过程的准确性。然而,随着ML系统在与人类密切相关的领域中的使用日益增多,关于其决策公平性的担忧也在增加。例如,2018年,路透社发现亚马逊的简历筛选算法存在年龄和性别偏见,该算法对包含“女性”一词的简历和显示出较老申请者的毕业年份的简历进行了降级处理。尽管亚马逊迅速废除了该有偏见的算法,但很可能在其意识到不公平影响之前,该算法已被部署了数月。为了减少此类伦理问题,在ML系统的开发和部署前后持续进行公平性测试是至关重要的。

目前,软件工程社区已经做出了各种努力,借鉴传统软件测试技术,首先搜索并减轻ML中的歧视。例如,Udeshi等人介绍了AEQUITAS,这是一种探索ML模型输入空间中的歧视性实例的公平性测试技术,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。虽然当前的方法已被证明是有效的,但它们主要集中在开发阶段检测和解决歧视问题。在ML系统部署后的操作期间进行公平性测试的研究相对较少。为了解决这一差距,本研究提出了一种框架,用于持续监控已部署的ML系统,以评估其公平性。

背景

在讨论公平性、公平性测试、反事实解释和人类审查之前,我们需要先了解一些基本术语。

公平性

在ML系统中的决策公平性是指不存在基于个人或群体固有或获得属性的偏见或偏好。制定公平性是解决公平性问题和开发公平ML模型的第一步。在简单的术语中,假设ML预测模型$h$在决策时使用了包含敏感属性$S$和其他属性$Z$的数据集进行训练。公平性可表示为:

$$ F(X, Y, h, S, Z) = h(X, S, Z) ≈ h(X, S’, Z) $$

这意味着模型$h$在去除任何潜在偏见后,对同一组个体应做出相同的决策。

个体公平性

个体公平性确保相似的个体无论其保护属性如何,都应得到相似的结果。假设$X$代表一组属性(或特征),$Q$代表一组受保护的属性。个体公平性定义为:

$$ f(x_i) = f(x_{i’}) $$

其中,$f$为ML分类器,$x_i$和$x_{i’}$代表具有相似非保护属性但可能具有不同保护属性的两个个体。

公平性测试

公平性测试是软件测试的一个分支,专注于暴露ML系统中的公平性漏洞。公平性测试可以分为离线和在线测试。离线公平性测试是在模型开发期间进行的,仅评估模型在给定训练数据上的公平性。相反,在线公平性测试是在ML系统部署后,使用实际输入数据持续监控和评估其公平性。

反事实解释

反事实解释是一种识别改变给定预测所需的最小变化的技术。通过提供与观察结果相似但产生不同结果的特定数据实例,反事实解释帮助理解某些因素对结果的直接影响。反事实解释的公式如下:

$$ c = \arg\min \text{loss}(f(c), y) + |x – c| $$

其中,$x$为输入特征,$f$为模型,$y$为模型的输出,$c$为导致不同输出的反事实实例。

将人类审查嵌入ML系统

在ML系统的自动决策过程中,嵌入人类审查和监督(即人类在环)可以有效减少系统中的偏见。人类审查的主要目的是对ML模型的输出进行最终检查,以确保决策公平、无偏和准确。人类审查通常作为回顾性审查进行,即在ML系统运行后对其决策进行审查。

相关工作

文献中提出了多种方法来识别ML系统中的个体歧视。例如,Galhotra等人介绍了Themis,通过随机抽样输入空间来创建测试案例,并通过观察系统在测试中的行为来评估歧视性事件的频率。Udeshi等人提出了AEQUITAS,一种双阶段搜索的公平性测试技术,探索输入空间中的歧视性实例,然后通过扰动这些实例的非保护属性来生成更多的歧视性样本。

与现有方法相比,我们的工作聚焦于在线公平性测试,评估ML系统在运行期间的公平性。

方法

本节介绍了我们提出的概念模型。该模型旨在实时监控和缓解ML系统中的偏见,如贷款申请系统。过程如下图所示:

反事实生成

反事实生成过程包括输入一个输入实例$x$,并使用预训练的ML模型$f$生成反事实实例$c_1, c_2, …, c_n$,这些实例具有不同的保护属性组合。

偏见检测

自动偏见检测组件分析反事实生成过程的输出,以确定是否存在对原始实例的歧视。如果存在反事实示例,则会标记为需要人类审查;否则,ML模型的决策保持不变。

人类审查

人类审查在评估ML系统的公平性方面起着关键作用。自动偏见检测组件标记的歧视性实例和相应的反事实示例会传递给人类审查组件进行最终评估。人类审查提供了对系统行为的全面理解,允许在运行时识别和纠正不公平的偏见。

使用案例示例

示例1:医疗系统

在医疗系统中,使用ML系统评估患者并预测再入院的可能性。如果模型对某些人口群体做出了有偏见的决定,可以通过反事实解释和自动偏见检测组件检测到这一偏见。

示例2:教育系统

在教育系统中,模型可以用于监控和解决招生委员会决策过程中的偏见。例如,反事实生成和自动偏见检测组件可以识别少数群体申请者在招生过程中是否被不公平地引导。

示例3:贷款/信用评分系统

在贷款/信用评分系统中,模型可以识别对黑人和少数群体申请者的偏见。利用反事实解释和自动偏见检测组件,这些偏见可以被标记并进行人类审查。

示例4:刑事司法系统

在刑事司法系统中,模型可以用于预测被告再犯的可能性。反事实生成和自动偏见检测组件可以揭示模型对黑人被告的歧视性决策。

示例5:招聘系统

在招聘系统中,模型可以识别对女性候选人的偏见。通过反事实生成和自动偏见检测组件,可以揭示系统的有偏见决策。

结论

本文提出了一个概念模型,用于通过人类审查和反事实解释在实时中跟踪和纠正个体歧视。我们的框架利用反事实解释的力量来识别ML系统中的歧视实例,并包括一个人类审查组件来减轻这些偏见。未来,我们计划构建并部署该系统,并进行公平性测试以确保其在实际操作中公正和公平。

参考文献

  1. Mamman, Hussaini et al., “Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions”, 13th Computer Science On-line Conference, Lecture Notes on Networks and Systems, Springer, April 2024.
  2. Udeshi, S., et al., “AEQUITAS: A Fairness Testing Technique for Machine Learning Systems”, 2018.
  3. Galhotra, S., et al., “Themis: Automatically Testing Software for Discrimination”, 2017.
  4. Kusner, M., et al., “Counterfactual Fairness”, 2017.
  5. Yang, S., et al., “BiasRV: Detection of Gender Discrimination in Sentiment Analysis Systems”, 2020.

发表评论