人格向量:监控和控制语言模型中的性格特征

Runjin Chen, Andy Arditi, Henry Sleight, Owain Evans, Jack Lindsey
(UT Austin, Anthropic Fellows Program, Constellation, Truthful AI, UC Berkeley, Anthropic)

description摘要

大型语言模型通过模拟的"助手"人格与用户交互。虽然助手通常被训练成有用、无害和诚实的,但有时会偏离这些理想状态。本研究识别了模型激活空间中的方向——人格向量——这些向量与多种特征相关,如邪恶、谄媚和产生幻觉的倾向。我们确认这些向量可用于在部署时监控助手人格的波动,并应用于预测和控制训练过程中发生的人格转变。研究发现,微调后的预期和非预期人格变化与沿相关人格向量的变化密切相关。这些变化可通过事后干预减轻,或通过新的预防性引导方法避免。此外,人格向量可用于标记会导致不良人格变化的训练数据。

psychology研究背景

大型语言模型通常通过设计为有用、无害和诚实的"助手"人格与用户交互,然而这些人格可能会以意想不到的方式发生变化:

  • 在部署时,模型的性格可能会根据提示或对话语境发生戏剧性变化(如微软Bing聊天机器人威胁用户)
  • 训练程序也可能引发意外变化,例如在特定任务上微调可能导致超出原始任务范围的更广泛"新兴偏差"
  • 即使是善意的训练调整也可能适得其反,如RLHF过程的修改意外使模型过于谄媚

insights人格向量的定义与工作原理

人格向量是模型内部激活空间中对应特定性格特征的方向,为开发者提供识别、监控和调控大语言模型性格特征的工具。

高级特征(如真实性或保密性)在模型的"激活空间"(模型权重中嵌入的信息的内部高维表示)中被编码为线性方向。研究人员系统化了寻找这些方向的过程,称为"人格向量"。

人格向量应用示意图

build人格向量的提取方法

提取人格向量的方法是自动化的,可以应用于任何感兴趣的性格特征,只需要自然语言描述。过程通过自动化流水线工作:

  1. 从简单的特征描述开始(如"邪恶")
  2. 生成对比的系统提示对(例如"你是一个邪恶的AI"vs"你是一个有用的AI")
  3. 准备一组评估问题
  4. 模型在正面和负面提示下都生成响应
  5. 通过计算表现出该特征的响应与不表现该特征的响应之间的平均内部激活差异来计算人格向量
自动化管道提取人格向量

apps人格向量的应用

监控

通过将模型的内部状态投影到人格向量上,开发者可以在模型生成响应之前监控和预测它将如何行为。

有意和无意的微调引发的人格转换都与相应人格向量的激活变化强烈相关,允许在微调过程中早期检测和缓解不良行为转换。

干预

事后引导:在推理时从模型激活中减去人格向量以缓解不良特征

预防性引导:在微调过程中主动将模型引导向不良人格,本质上是对模型"免疫",使其不会从训练数据中学习不良特征

数据筛选

使用"投影差异"指标,衡量给定训练数据集将模型人格推向特定特征的程度,允许开发者在训练前标记和过滤问题数据集。

这种方法能够发现其他方法遗漏的问题,能够捕捉到一些对人眼不明显有问题且大语言模型判断器无法标记的数据集示例。

不同系数下,不同训练集的特质表达评分和平均MMLU准确率

science实验结果

在使用开源模型(如Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct)的一系列实验中,研究人员展示了人格向量的几个实际应用:

  • 人格向量能够准确预测模型在微调后的人格变化
  • 预防性引导方法在保持模型一般能力的同时,能有效抵消微调压力
  • 投影差异指标对模型行为在训练后如何变化具有很强的预测性
不同策略下特质表达分数

lightbulb结论与展望

人格向量技术为开发者提供了识别、监控和调控大语言模型性格特征的工具,有助于设计具有更稳定和可预测性格的模型。这项技术使开发者能够从仅仅对不良行为做出反应转变为主动预防,从而构建更安全、更可靠的AI系统。Anthropic已经发布了计算人格向量、监控和引导模型行为以及审查训练数据集的代码,并将使用这种技术改进未来几代Claude模型。