psychology 研究背景

  • 大型语言模型(LLMs)展现出日益复杂的认知能力
  • 内省能力(self-introspection)是高级认知系统的关键特征
  • 当前挑战:如何区分真正的内省与模型的"幻觉"行为
  • 本研究探索LLMs是否能感知和识别其内部状态的变化

science 研究方法

  • 向模型激活中注入已知概念的表示
  • 测量这些操作对模型自我报告状态的影响
  • 设计控制实验区分内省与"事后合理化"
  • 使用多层评估指标验证模型对内部状态的感知能力

lightbulb 主要发现

  • 模型在某些场景下能准确识别注入的概念
  • 内省能力与模型规模和训练数据复杂度呈正相关
  • 模型展现出对先前意图的回忆能力
  • 内省能力在特定任务中表现更为突出

insights 研究意义

  • 为AI系统的自我监控和纠错机制提供新思路
  • 有助于构建更透明、可解释的AI系统
  • 对AGI(人工通用智能)的发展路径提供重要见解
  • 促进AI伦理和安全研究的深入