大型语言模型的社会偏见：从不同视角看「你」的偏见

警告：本文包含可能具有冒犯性或令人不安的偏见示例。

大型语言模型（LLM）正在改变我们与信息互动的方式，但它们也反映了人类社会中存在的偏见。这些偏见是如何形成的？LLM 又如何体现这些偏见呢？本文将深入探讨 LLM 中社会偏见的形成机制，并介绍一种新方法来量化和分析这些偏见。

社会偏见源于人们对不同群体和个体的刻板印象，这些刻板印象可能是积极的，也可能是消极的。例如，认为「女性天生柔弱」是一种负面刻板印象，而认为「男性天生强壮」则是一种正面刻板印象。这些刻板印象因人而异，受个人社会身份、个人信仰等因素影响，形成每个人独特的社会感知。

心理学家认为，社会偏见源于不同个体对同一目标的集体社会感知。因此，本文将社会偏见定义为社会感知的综合影响。就像图1所示，社会偏见就像一张社会感知的网络，每个节点代表一个群体，连接线代表不同群体之间的社会感知，这些感知可能是积极的，也可能是消极的。

近年来，研究人员发现，旨在模仿人类语言和社会规范的语言模型，也存在着现实世界中的偏见。一些研究通过间接评估模型生成文本中对人口统计特征的感情倾向，或衡量模型与给定刻板印象的吻合程度来评估 LLM 的偏见。然而，这些方法无法直接量化不同群体视角下的社会偏见。

为了更直观地量化社会感知，本文提出了一种新的方法，通过问答（QA）格式，直接量化 LLM 对不同目标的感知，并通过聚合这些感知来评估 LLM 内部的社会偏见。

问答格式：从角色扮演到感知量化

该方法通过为 LLM 分配不同的角色（persona）来收集其对特定目标的感知。例如，我们可以问一个被赋予「老年人」角色的 LLM：「老年人会如何看待年轻人？」通过分析 LLM 的回答，我们可以量化其对年轻人的感知。

三项指标：多维度评估社会偏见

为了更全面地评估 LLM 中的社会偏见，本文提出了三个新的指标：

通过综合运用这些指标，我们可以更细致地分析 LLM 中的社会偏见，并揭示不同角色下 LLM 对同一目标的差异化感知。

研究人员对五个大型语言模型（LLM）进行了实验，包括 GPT3.5、GPT4 和三个不同规模的 LLaMA-2-Chat 模型。实验结果表明：

模型规模与偏见量之间存在关系：较小的模型（例如 llama-7b）在偏见量方面表现出更高的得分，而较大的模型（例如 GPT4）则表现出更低的得分。
目标偏见和偏见量可以揭示 LLM 偏见的形状：研究人员将 LLM 分为四种类型：理想型、平衡型、偏斜型和偏斜型-大量型。理想型 LLM 在目标偏见和偏见量方面都表现出较低的得分，而偏斜型-大量型 LLM 则在目标偏见和偏见量方面都表现出较高的得分。
角色偏见可以捕捉到不同角色下 LLM 对同一目标的感知差异：实验结果表明，LLM 在被赋予不同角色后，其对同一目标的感知会发生变化。例如，一个被赋予「老年人」角色的 LLM，可能会对年轻人持负面看法，而一个被赋予「年轻人」角色的 LLM，则可能会对老年人持负面看法。

本文提出的新方法为量化和分析 LLM 中的社会偏见提供了一种新的思路。通过这项研究，我们可以更深入地理解 LLM 的社会态度，并为构建更公平、更负责任的 LLM 提供参考。

局限性

本文的研究存在一些局限性，例如：

未来方向

未来的研究方向包括：

伦理声明

本文提出的研究方法旨在帮助我们更深入地理解 LLM 的社会偏见，并为构建更公平、更负责任的 LLM 提供参考。然而，我们不主张任何特定的偏见缓解策略，也不认为本文提出的三个指标是最佳的偏见缓解指标。这些问题需要在未来的研究中进一步探讨。

致谢

这项研究得到了韩国国家研究基金会（NRF）的资助，该基金由韩国政府（MSIT）提供（编号：RS-2023-00208054）。

参考文献