动态去偏：解释引导的人类监督机器学习系统决策

引言

在当前社会中，机器学习（ML）系统已经广泛应用于招聘、金融和医疗等关键领域。然而，这些系统在做出决策时，可能会基于受保护属性（如性别、种族等）出现歧视性结果。这引起了人们对其公正性的广泛关注。虽然在开发阶段确保公平性非常重要，但部署后的ML系统仍可能在实际操作中表现出歧视性。为了填补这一空白，本文提出了一种新颖的框架，用于对部署的ML系统进行实时监控和纠正歧视行为。该框架利用反事实解释技术，持续监控ML系统的预测，并在检测到歧视性结果时进行标记。然后，将与原始预测和反事实替代相关的事后解释呈现给人类审查员，以便进行实时干预。这种人类在环（human-in-the-loop）的方法使审查员能够接受或推翻ML系统的决定，从而在动态环境下实现公平和负责任的ML操作。

什么是公平性？

公平性的定义

在ML系统的决策中，公平性是指在没有基于个人或群体的固有或获得属性（如种族、性别等）出现偏见或偏好。公平性问题的解决首先需要对其进行量化。简而言之，假设 ( X. 代表一个个体的属性集合， ( Y ) 代表真实标签集合， ( S ) 代表敏感属性， ( Z ) 代表其他属性，公式如下：✅

[ F(X, Y, h, S, Z. = f(h(X, S, Z)) \approx h(X, S』, Z) ]✅

其中， ( S』 ) 是去除了任何潜在偏见的敏感属性子集。此公式还可以写为概率分布：

[ F(h) = P[Y = y|X, A = a] = P[Y = y|X, A = a』] ]

这意味着，给定个体属性 ( X. 的情况下，不同受保护属性值 ( a ) 和 ( a』 ) 对预测结果 ( Y ) 的影响是相同的，即模型的预测结果应独立于受保护属性。✅

个体公平性

个体公平性确保了相似的个体在决策中获得相似的结果，而不考虑其受保护属性。这种公平性基于这样一种理念：个体应被平等对待，不论其是否属于某一特定群体。设 ( X. 表示属性集合， ( Q ) 表示受保护属性集合，公式如下：✅

[ X = D(q_1) \times D(q_2) \times \cdots \times D(q_n) ]

其中， ( D(q_i) ) 表示属性 ( q_i ) 的取值域， ( x_i ) 表示输入实例中的第 ( i ) 个属性值。

公平性测试

公平性测试是一种软件测试分支，旨在揭露ML系统中存在的不公平性漏洞。公平性漏洞指的是ML系统在实际操作中违背预期公平性条件的任何缺陷。公平性测试可以分为离线测试和在线测试。离线测试在模型开发阶段进行，只评估模型在训练数据上的表现，而不考虑其在实际应用中的表现。而在线测试则在模型部署后，持续监控和评估其在实际操作中的公平性。

反事实解释

反事实解释是一种用于识别需要做出的最小更改，以改变给定预测的技术。通过提供类似于待解释观察结果但产生不同结果的特定数据实例，反事实解释可以帮助理解某些因素对结果的直接影响，从而识别模型中的潜在问题并做出明智的决策。公式如下：

[ c = \arg \min_{c} \text{loss}(f(c), y) + |x – c| ]

其中，第一项表示模型预测的损失或错误，第二项表示原始观察结果与反事实数据点之间的差异。这个公式确保反事实数据点与初始观察结果尽可能相似，但结果不同。

人类监督在ML系统中的嵌入

在使用ML系统自动化决策过程中，一个重要的担忧是这些系统可能会对某些群体产生偏见。引入人类输入和监督（即人类在环）可以有效减少系统中的偏见，因为人类带来了不同的视角、知识和经验，可以在算法没有考虑到的情况下做出公正的决策。公式如下：

[ F(H. = H(f(x_1), f(x_2), \ldots, f(x_n)) ]✅

表示ML系统输出的最终决策可以由人类审查员进行验证和确认。

方法论

本文提出了一种概念模型，旨在在ML系统运行期间实时监控和纠正偏见。该模型包括以下组件：

反事实生成：输入实例后，通过预训练的ML模型生成反事实实例，这些实例与原始实例在受保护属性上有所不同，但其他特征相同。
偏见检测：自动偏见检测组件分析反事实实例，并判断是否存在歧视性结果。如果存在反事实实例且结果不同，则标记为歧视。
人类审查：将标记为歧视的实例提交给人类审查员进行最终评估，以确保系统决策的公正性。

实际应用案例

案例1：医疗系统

在医疗系统中，ML模型可以用于预测患者的再入院风险。然而，如果模型对某些人口群体（如某种种族或性别）存在偏见，这些偏见可以通过反事实解释和自动偏见检测组件来检测和纠正。例如，如果反事实解释表明某患者的再入院风险会因其属于某特权群体而降低，则可以标记该预测为歧视性并进行人类审查。

案例2：教育系统

在教育领域，ML模型可以用于评估学生申请和奖学金分配。然而，如果模型对某些群体（如少数民族或性别）存在偏见，这些偏见可以通过反事实生成和自动偏见检测组件来检测。例如，反事实解释可以揭示某少数族裔申请者如果不是少数族裔，可能会获得更高的录取几率。

案例3：贷款审批系统

在贷款审批系统中，ML模型用于评估申请者的信用评分和贷款批准。然而，如果模型对某些群体（如种族或性别）存在偏见，这些偏见可以通过反事实生成和自动偏见检测组件来检测和纠正。例如，反事实解释可以揭示某少数族裔申请者如果不是少数族裔，可能会更容易获得贷款批准。

案例4：刑事司法系统

在刑事司法系统中，ML模型用于预测被告的再犯风险。然而，如果模型对某些群体（如种族）存在偏见，这些偏见可以通过反事实生成和自动偏见检测组件来检测和纠正。例如，反事实解释可以揭示某黑人被告如果不是黑人，其再犯风险评分会更低。

案例5：招聘系统

在招聘系统中，ML模型用于筛选求职者。然而，如果模型对某些群体（如性别）存在偏见，这些偏见可以通过反事实生成和自动偏见检测组件来检测和纠正。例如，反事实解释可以揭示某女性求职者如果是男性，其录取概率会更高。

结论

本文提出了一种概念模型，用于通过人类审查和反事实解释在实时中跟踪和纠正ML系统中的个体歧视。我们的框架利用反事实解释的力量来定位ML系统中的歧视实例，并包含一个人类审查组件来纠正这些偏见。这种方法有助于确保这些系统做出的决策是公平且无偏的，从而防止弱势群体受到歧视性结果的不公正影响。

参考文献

Mamman, Hussaini Abubakar, et al. 「Unbiasing on the Fly: Explanation-Guided Human Oversight of Machine Learning System Decisions.」 13th Computer Science On-line Conference, Lecture Notes on Networks and Systems, Springer, April 2024.
Udeshi S. , et al. 「AEQUITAS: A Fairness Testing Technique.」 ✅Udeshi et al. 2018.
Monjezi R. , et al. 「DICE: Discrimination Identification and Correction in Deep Neural Networks.」 ✅Monjezi et al. 2018.
Galhotra S. , et al. 「Themis: A Fairness Testing Tool.」 ✅Galhotra et al. 2017.
Yang J. , et al. 「BiasRV: A Tool for Detecting Gender Discrimination in Sentiment Analysis Systems.」 ✅Yang et al. 2019.

引言