分类： AGI

AGI 通用人工智能

欢迎来到幻觉与认知的世界

大数据、深度学习和语言模型的时代里，我们的生活已经被人工智能（AI）彻底改变。无论是聊天机器人、搜索引擎还是推荐系统，每一项技术背后都蕴含着庞大的语言模型的力量。然而，这些模型并不总是完美的，它们有时会生成一些令人啼笑皆非的“幻觉”——那些看似可信却完全虚假的信息。

今天，我们将深入探讨一篇极具启发性的研究论文：《“Do I Know This Entity？Knowledge Awareness and Hallucinations in Language Models”》。这篇论文不仅揭示了语言模型的“幻觉”机制，还探讨了如何通过稀疏自动编码器（Sparse Autoencoders，简称SAE）来解锁模型的“自我知识”（self-knowledge）。准备好了吗？让我们一起踏上这段知识之旅！🚀

🧠 第一幕：幻觉与“自我认知”

🌌 什么是语言模型的幻觉？

幻觉（Hallucination）在大型语言模型（LLMs）中指的是：模型生成了流畅但事实错误或无法验证的信息。比如，当你问一个模型“Wilson Brown是什么时候出生的？”时，如果模型说“他于1994年8月1日出生”，而实际上Wilson Brown根本不存在，这就是一个典型的幻觉现象。

幻觉的存在令人头疼，尤其是在医疗、法律等需要高度准确性的领域。论文中提到，虽然已有研究深入探讨了语言模型如何回忆已知事实，但对于幻觉和拒绝回答的机制却鲜有了解。

🌱 比喻时间！

试想一下，语言模型就像一个图书馆管理员。它有两种选择：

“我知道”： 它从图书馆的书架上找到了正确的书（已知事实）。
“我不知道”： 它找不到书，但仍然编造了一个答案（幻觉）。

为什么它不直接说“我不知道”呢？这是本文要解开的谜团之一。

🧬 稀疏自动编码器与自我知识的秘密

论文的核心之一是使用稀疏自动编码器（SAEs）作为工具，来揭示语言模型的内部表示。这些编码器能够找到表征空间中与“实体识别”相关的方向，从而检测模型是否能回忆某个实体的事实。

🎨 图解：已知与未知实体的激活模式

以下是论文中一个关键实验的示意：

已知实体激活	未知实体激活
Michael Jordan	Michael Joordan
“LeBron James是哪一年出生的？”	“Wilson Brown是哪一年出生的？”
模型回答： “他出生于旧金山。”	模型回答： “他出生于Anthon市。”

这个对比反映了模型对于已知与未知实体的不同处理方式。通过稀疏自动编码器，研究者发现了一些线性方向，这些方向能够反映模型是否“认识”某个实体。这种现象被称为“自我知识”。

🔍 第二幕：稀疏自动编码器的魔法

🧩 什么是稀疏自动编码器？

简单来说，稀疏自动编码器是一种能够学习稀疏且可解释特征的工具。它基于线性表示假设（Linear Representation Hypothesis），即模型的输入特征（如情感、事实性）可以被表示为表示空间中的线性方向。这些方向可以用来解码和理解模型的行为。

💡 公式时间！

稀疏自动编码器的核心公式如下：

表示的重构公式：
$SAE(x) = a(x)W_{dec} + b_{dec}$

其中， $a(x)$ 是稀疏激活函数， $W_{dec}$ 是解码权重矩阵。
激活函数公式：
$a(x) = \text{JumpReLU}<em>\theta(xW</em>{enc} + b_{enc})$

其中， $\text{JumpReLU}_\theta$ 是一种分段激活函数。
损失函数公式：
$L(x) = |x - SAE(x)|_2^2 + \lambda |a(x)|_0$

这个公式的目标是同时最小化重构误差和激活稀疏性。

通过这些公式，SAEs能够找到语言模型中表示已知和未知实体的线性方向。

🔍 实验揭秘：实体识别方向的发现

研究者们使用了Gemma Scope工具包，对Gemma 2模型（2B和9B参数）的每一层进行了SAEs训练，最终找到了与实体识别相关的方向。这些方向不仅可以区分“已知”与“未知”实体，还能够用于“因果干预”，即通过操控这些方向来改变模型的行为。

🎯 实验结果：模型的层次结构

中间层是关键：论文发现，区分已知和未知实体的方向在模型的中间层（如第9层）表现得最为显著。
广泛泛化能力：这些方向在不同类型的实体（电影、城市、歌曲、球员）之间表现出一致性。

🧠 第三幕：因果干预与模型行为调控

🚦 “我知道”与“我不知道”的开关

研究者通过操控稀疏自动编码器的方向，实现了以下两种行为的切换：

拒绝回答已知实体的问题：通过增加“已知实体方向”的激活值，模型会更倾向于拒绝回答关于已知实体的问题。
对未知实体产生幻觉：通过增加“未知实体方向”的激活值，模型会倾向于编造未知实体的属性。

📊 数据可视化：拒绝率的变化

下图展示了模型在不同干预条件下的拒绝率：

实体类型	原始模型	已知方向干预	未知方向干预
球员	45%	90%	10%
电影	50%	85%	20%

从数据中可以看出，通过操控实体识别方向，模型的行为发生了显著变化。

⚙️ 机制分析：注意力与属性提取

研究进一步揭示，这些方向不仅影响模型的行为，还会调控模型的注意力机制。例如：

注意力分配的变化：在处理已知实体时，模型的注意力更集中在实体相关的词汇上；而在处理未知实体时，注意力则被分散或削弱。
属性提取机制的干扰：通过操控“未知实体方向”，研究者发现模型的属性提取机制被显著抑制。

🌟 第四幕：不确定性方向与错误预测

🤔 模型如何表达不确定性？

除了实体识别方向，研究者还发现了一些与不确定性相关的方向。这些方向能够区分模型的正确回答与错误回答，甚至预测即将发生的幻觉。

✨ 真实案例

当问到“Wilson Brown是哪一年出生的？”时：

如果不确定方向的激活值较高，模型倾向于回答“我不确定”。
如果不确定方向的激活值较低，模型更可能产生幻觉。

🎭 大结局：从理解到应用

🔑 论文的核心贡献

发现自我知识方向：通过稀疏自动编码器，研究者揭示了语言模型内部的“自我知识”机制。
因果干预的成功应用：通过操控这些方向，研究者实现了对模型行为的精确控制。
不确定性方向的探索：研究进一步揭示了模型表达不确定性的内部机制。

🌍 应用展望

这一研究为解决语言模型的幻觉问题提供了重要启发。未来，我们可以利用这些发现来：

提高模型的事实性和可靠性；
减少医疗、法律等领域的错误回答；
构建更透明、更可解释的AI系统。

📚 参考文献

Javier Ferrando, Oscar Obeso et al. (2024). Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models.
Radford et al. (2019). Language Models are Few-Shot Learners.
Bricken et al. (2023). Sparse Autoencoders for Interpretability.
Nanda et al. (2023). Attention Mechanisms in Language Models.
Geva et al. (2023). Factual Recall in AI Systems.

希望这篇文章不仅解答了您对语言模型幻觉的疑问，还为您带来了一点轻松与乐趣！让我们期待AI技术的更大突破！🎉

2024-11-23

🎭 Marco-o1：通向开放性推理模型的未来之路

作者: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo 和 Kaifu Zhang
单位: MarcoPolo 团队，阿里巴巴国际数字商务
日期: 2024年11月22日

🌟 引言

如果说AI领域是一个精彩的舞台，那么近期OpenAI推出的o1模型无疑是其中的顶级明星。o1因其卓越的推理能力而备受赞誉，尤其在AIME和CodeForces等平台上表现出色，甚至一度成为学术圈热议的焦点。那么，问题来了：我们是否能够进一步推动大型语言模型（LLMs）的边界，使其不仅在标准答案明确的领域（如数学、物理、编程）中表现优异，还能在开放性、无明确标准的领域中展现卓越的推理能力？

Marco-o1 的诞生正是基于这一问题的探索结果。这款模型不仅融合了先进的链式推理（Chain-of-Thought, CoT）微调、蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS） 和创新的反思机制，更在复杂的现实问题解决中表现出与众不同的推理能力。

本文将带您深入了解Marco-o1模型的核心理念、技术架构及其实验成果，同时以轻松风趣的方式揭示其背后的科学原理。

🧠 Marco-o1 的创新之处

Marco-o1的设计灵感来源于OpenAI的o1模型，但其目标远远超越了前者。以下是Marco-o1的主要创新点：

利用链式推理（CoT）数据进行微调：通过结合开放数据集和自研合成数据，我们进行了全参数微调，显著提升了模型在复杂任务中的推理能力。
结合蒙特卡洛树搜索（MCTS）扩展解空间：通过模型输出的置信度分数引导搜索路径，有效探索更广泛的推理路径。
引入反思机制：”等等！我可能犯了些错误，我需要重新思考！” 这一机制鼓励模型反思其推理过程，从而自我修正错误。
拓展至翻译任务：首次将大型推理模型（LRM）应用于机器翻译任务，尤其是在处理俚语和口语化表达时表现卓越。

📚 数据集与构建

Marco-o1的推理能力得益于其强大的数据支持。以下是其核心数据集的构成：

数据集	样本数量	来源与特点
Open-O1 CoT 数据集（过滤后）	45,125	从开放项目中提取并通过启发式和质量过滤精炼而成
Marco-o1 CoT 数据集（合成）	10,000	使用MCTS生成的复杂推理路径
Marco 指令数据集	5,141	包含丰富的指令跟随任务，提升模型的通用能力
总计	60,266

这些数据集通过监督微调（SFT）方法，为模型推理能力奠定了坚实基础。

🌳 MCTS：从“解题棋手”到“推理大师”

想象一下，如果我们将问题的求解过程看作是一场博弈游戏，那么每一步推理就像棋盘上的一步棋。而Marco-o1的MCTS机制正是这样一位“解题棋手”，它在每一步中评估多种可能性，选择最优解路径。其核心流程包括：

节点表示推理状态：每个节点代表问题求解过程中的一个状态。
行动为模型输出：每个节点的可能行动由模型的输出表示，这些行动对应于推理链中的步骤或微步骤。
回合和奖励计算：在模拟阶段，模型继续推理至终止状态，并为路径分配奖励分数。

公式如下，用于计算每个token的置信度分数：

$c_i = \frac{\exp(p(t_i))}{\sum_{k=1}^5 \exp(p(t_k))}$

其中， $p(t_i)$ 为第 $i$ 个token的对数概率， $p(t_k)$ 为前5个备选token的对数概率。接着，对所有token的置信度分数取均值，得到整体奖励分数：

$v = \frac{1}{n} \sum_{i=1}^n c_i$

模型通过这种方法有效扩展了解空间，探索更优的推理路径。

🔬 实验与结果

为了验证Marco-o1的表现，我们针对不同的配置进行了实验，结果如下：

模型	MGSM-En (准确率)	MGSM-Zh (准确率)
Qwen2-7B-Instruct	84.23%	76.80%
Marco-o1-CoT	85.60%	71.20%
Marco-o1-MCTS（步骤级）	90.40%	80.00%
Marco-o1-MCTS（64-token 微步骤级）	88.40%	80.40%
Marco-o1-MCTS（32-token 微步骤级）	87.60%	82.40%

🎯 结果分析：

在英文数据集（MGSM-En）上，“步骤级”策略表现最佳。
在中文数据集（MGSM-Zh）上，“32-token 微步骤级”策略表现出色，体现了不同粒度的推理策略在多语言场景中的潜力。

🌍 翻译任务案例研究

Marco-o1不仅在推理任务中表现优异，还在翻译任务中展示了强大的语言理解能力。例如：

输入（中文俚语）：这双鞋给人一种踩屎的感觉。
Google Translate 输出：This shoe gives a feeling of stepping on poop.
Marco-o1 输出：This shoe has a comfortable sole.

从中可以看出，Marco-o1不仅能准确翻译字面意思，更能捕捉语言的语境和文化内涵，为翻译任务带来了新可能性。

🤔 反思机制：模型的“自我批评家”

“等等！我可能犯了些错误，我需要重新思考！” 这句看似简单的提示语，却成为了Marco-o1推理能力提升的关键。通过这一机制，模型能够：

主动反思推理过程中的潜在错误。
在具有挑战性的问题上显著提高正确率（例如，原本错误的答案中约50%在反思后变为正确）。

这一过程类似于人类的自我批评行为，通过反复审视自己的逻辑来提升决策质量。

🧭 未来发展方向

Marco-o1的成功只是AI推理旅程的起点。未来，我们计划：

优化奖励信号：通过引入结果奖励建模（Outcome Reward Modeling, ORM）和过程奖励建模（Process Reward Modeling, PRM），进一步提升MCTS的稳定性和性能。
探索强化学习技术：在决策过程中融入强化学习，增强模型在实际问题中的适应能力。

我们相信，随着这些技术的逐步完善，Marco-o1将能够在更多复杂的现实场景中大放异彩。

📜 参考文献

OpenAI, 2024. “OpenAI o1: Advancing Reasoning in AI.”
Wei, J. , et al., 2022. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.”✅
Silver, D. , et al., 2017. “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.”✅
Valmeekam, K. , et al., 2023. “Self-Critical Reasoning in AI Systems.”✅
Madaan, A. , et al., 2024. “Reflection Mechanisms in LLMs: A New Frontier.”✅

🎉 后记：Marco-o1不仅让我们看到了AI推理能力的巨大潜力，也让我们对未来充满期待——一个由更智能、更敏捷的模型引领的智能时代或许已不再遥远！

2024-11-23