人格向量：监控和控制语言模型中的性格特征

三大核心应用

通过将模型的内部状态投影到人格向量上，开发者可以在模型生成响应之前监控和预测它将如何行为。有意和无意的微调引发的人格转换都与相应人格向量的激活变化强烈相关。

通过"引导"过程在推理时直接干预以遏制不良行为。包括"事后引导"和"预防性引导"两种方法，可以有效减轻或防止不良人格特征的出现。

使用"投影差异"指标，衡量给定训练数据集将模型人格推向特定特征的程度，允许开发者在训练前标记和过滤问题数据集。

在推理时从模型激活中减去人格向量以缓解不良特征。

在微调过程中主动将模型引导向不良人格，本质上是对模型"免疫"。

企业的一个关键应用是使用人格向量在微调前筛选数据。研究人员开发了一个称为"投影差异"的指标，衡量给定训练数据集将模型人格推向特定特征的程度。

该指标对模型行为在训练后如何变化具有很强的预测性，允许开发者在将数据集用于训练前标记和过滤问题数据集。对于在专有或第三方数据（包括其他模型生成的数据）上微调开源模型的公司，人格向量提供了监控和减轻继承隐藏不良特征风险的直接方法。

主动筛选数据的能力是开发者的强大工具，使他们能够识别可能不会立即显现为有害的问题样本。研究发现，这种技术可以发现其他方法遗漏的问题："这表明该方法发现了可能逃避基于大语言模型检测的问题样本。"例如，他们的方法能够捕捉到一些对人眼不明显有问题且大语言模型判断器无法标记的数据集示例。

人格向量技术为开发者提供了从被动应对到主动预防的转变工具。通过监控、干预和数据筛选，开发者可以构建更安全、更可靠的AI系统，有效控制语言模型的性格特征，防止不良行为的发生。Anthropic已经发布了相关代码，并将使用这种技术改进未来几代Claude模型。