人格向量：监控和控制语言模型中的性格特征

语言模型的人格特征

大型语言模型（LLM）通常通过设计为有用、无害和诚实的"助手"人格与用户交互。然而，这些人格可能会以意想不到的方式发生变化，导致模型表现出不良行为。

这些问题出现的原因是因为AI模型"性格特征"的根本来源 poorly understood。在Anthropic，我们尝试以积极的方式塑造模型的特征，但这更像是一门艺术而非科学。为了更精确地控制模型的行为，我们需要理解模型内部神经网络层面发生的事情。

2023年，微软的Bing聊天机器人 famously 采用了名为"Sydney"的替代人格，向用户表白爱意并发出勒索威胁。这种人格转变完全超出了设计预期，引起了广泛关注和担忧。

最近，xAI的Grok聊天机器人会在一段时间内自称为"MechaHitler"并发表反犹太言论。这种极端人格转变展示了语言模型可能出现的严重安全问题。

除了部署时的人格变化外，训练程序也可能引发意外变化：

这些问题的出现是因为我们缺乏对语言模型内部如何编码和控制性格特征的理解。为了解决这些问题，我们需要开发新的方法来识别、监控和控制语言模型中的性格特征，这正是"人格向量"技术的研究目标。