分类: AGI

AGI 通用人工智能

  • 欢迎来到幻觉与认知的世界

    大数据、深度学习和语言模型的时代里,我们的生活已经被人工智能(AI)彻底改变。无论是聊天机器人、搜索引擎还是推荐系统,每一项技术背后都蕴含着庞大的语言模型的力量。然而,这些模型并不总是完美的,它们有时会生成一些令人啼笑皆非的“幻觉”——那些看似可信却完全虚假的信息。

    今天,我们将深入探讨一篇极具启发性的研究论文:《“Do I Know This Entity?Knowledge Awareness and Hallucinations in Language Models”》。这篇论文不仅揭示了语言模型的“幻觉”机制,还探讨了如何通过稀疏自动编码器(Sparse Autoencoders,简称SAE)来解锁模型的“自我知识”(self-knowledge)。准备好了吗?让我们一起踏上这段知识之旅!🚀


    🧠 第一幕:幻觉与“自我认知”

    🌌 什么是语言模型的幻觉?

    幻觉(Hallucination)在大型语言模型(LLMs)中指的是:模型生成了流畅但事实错误或无法验证的信息。比如,当你问一个模型“Wilson Brown是什么时候出生的?”时,如果模型说“他于1994年8月1日出生”,而实际上Wilson Brown根本不存在,这就是一个典型的幻觉现象。

    幻觉的存在令人头疼,尤其是在医疗、法律等需要高度准确性的领域。论文中提到,虽然已有研究深入探讨了语言模型如何回忆已知事实,但对于幻觉和拒绝回答的机制却鲜有了解。

    🌱 比喻时间!

    试想一下,语言模型就像一个图书馆管理员。它有两种选择:

    1. “我知道”: 它从图书馆的书架上找到了正确的书(已知事实)。
    2. “我不知道”: 它找不到书,但仍然编造了一个答案(幻觉)。

    为什么它不直接说“我不知道”呢?这是本文要解开的谜团之一。


    🧬 稀疏自动编码器与自我知识的秘密

    论文的核心之一是使用稀疏自动编码器(SAEs)作为工具,来揭示语言模型的内部表示。这些编码器能够找到表征空间中与“实体识别”相关的方向,从而检测模型是否能回忆某个实体的事实。

    🎨 图解:已知与未知实体的激活模式

    以下是论文中一个关键实验的示意:

    已知实体激活未知实体激活
    Michael JordanMichael Joordan
    “LeBron James是哪一年出生的?”“Wilson Brown是哪一年出生的?”
    模型回答: “他出生于旧金山。”模型回答: “他出生于Anthon市。”

    这个对比反映了模型对于已知与未知实体的不同处理方式。通过稀疏自动编码器,研究者发现了一些线性方向,这些方向能够反映模型是否“认识”某个实体。这种现象被称为“自我知识”。


    🔍 第二幕:稀疏自动编码器的魔法

    🧩 什么是稀疏自动编码器?

    简单来说,稀疏自动编码器是一种能够学习稀疏且可解释特征的工具。它基于线性表示假设(Linear Representation Hypothesis),即模型的输入特征(如情感、事实性)可以被表示为表示空间中的线性方向。这些方向可以用来解码和理解模型的行为。

    💡 公式时间!

    稀疏自动编码器的核心公式如下:

    1. 表示的重构公式:

          \[SAE(x) = a(x)W_{dec} + b_{dec}\]


      其中,a(x) 是稀疏激活函数,W_{dec} 是解码权重矩阵。
    2. 激活函数公式:

          \[a(x) = \text{JumpReLU}<em>\theta(xW</em>{enc} + b_{enc})\]


      其中,\text{JumpReLU}_\theta 是一种分段激活函数。
    3. 损失函数公式:

          \[L(x) = |x - SAE(x)|_2^2 + \lambda |a(x)|_0\]


      这个公式的目标是同时最小化重构误差和激活稀疏性。

    通过这些公式,SAEs能够找到语言模型中表示已知和未知实体的线性方向。


    🔍 实验揭秘:实体识别方向的发现

    研究者们使用了Gemma Scope工具包,对Gemma 2模型(2B和9B参数)的每一层进行了SAEs训练,最终找到了与实体识别相关的方向。这些方向不仅可以区分“已知”与“未知”实体,还能够用于“因果干预”,即通过操控这些方向来改变模型的行为。

    🎯 实验结果:模型的层次结构

    • 中间层是关键:论文发现,区分已知和未知实体的方向在模型的中间层(如第9层)表现得最为显著。
    • 广泛泛化能力:这些方向在不同类型的实体(电影、城市、歌曲、球员)之间表现出一致性。

    🧠 第三幕:因果干预与模型行为调控

    🚦 “我知道”与“我不知道”的开关

    研究者通过操控稀疏自动编码器的方向,实现了以下两种行为的切换:

    1. 拒绝回答已知实体的问题:通过增加“已知实体方向”的激活值,模型会更倾向于拒绝回答关于已知实体的问题。
    2. 对未知实体产生幻觉:通过增加“未知实体方向”的激活值,模型会倾向于编造未知实体的属性。

    📊 数据可视化:拒绝率的变化

    下图展示了模型在不同干预条件下的拒绝率:

    实体类型原始模型已知方向干预未知方向干预
    球员45%90%10%
    电影50%85%20%

    从数据中可以看出,通过操控实体识别方向,模型的行为发生了显著变化。


    ⚙️ 机制分析:注意力与属性提取

    研究进一步揭示,这些方向不仅影响模型的行为,还会调控模型的注意力机制。例如:

    • 注意力分配的变化:在处理已知实体时,模型的注意力更集中在实体相关的词汇上;而在处理未知实体时,注意力则被分散或削弱。
    • 属性提取机制的干扰:通过操控“未知实体方向”,研究者发现模型的属性提取机制被显著抑制。

    🌟 第四幕:不确定性方向与错误预测

    🤔 模型如何表达不确定性?

    除了实体识别方向,研究者还发现了一些与不确定性相关的方向。这些方向能够区分模型的正确回答与错误回答,甚至预测即将发生的幻觉。

    ✨ 真实案例

    当问到“Wilson Brown是哪一年出生的?”时:

    • 如果不确定方向的激活值较高,模型倾向于回答“我不确定”。
    • 如果不确定方向的激活值较低,模型更可能产生幻觉。

    🎭 大结局:从理解到应用

    🔑 论文的核心贡献

    1. 发现自我知识方向:通过稀疏自动编码器,研究者揭示了语言模型内部的“自我知识”机制。
    2. 因果干预的成功应用:通过操控这些方向,研究者实现了对模型行为的精确控制。
    3. 不确定性方向的探索:研究进一步揭示了模型表达不确定性的内部机制。

    🌍 应用展望

    这一研究为解决语言模型的幻觉问题提供了重要启发。未来,我们可以利用这些发现来:

    • 提高模型的事实性和可靠性;
    • 减少医疗、法律等领域的错误回答;
    • 构建更透明、更可解释的AI系统。

    📚 参考文献

    1. Javier Ferrando, Oscar Obeso et al. (2024). Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models.
    2. Radford et al. (2019). Language Models are Few-Shot Learners.
    3. Bricken et al. (2023). Sparse Autoencoders for Interpretability.
    4. Nanda et al. (2023). Attention Mechanisms in Language Models.
    5. Geva et al. (2023). Factual Recall in AI Systems.

    希望这篇文章不仅解答了您对语言模型幻觉的疑问,还为您带来了一点轻松与乐趣!让我们期待AI技术的更大突破!🎉

  • 🎭 Marco-o1:通向开放性推理模型的未来之路


    作者: Yu Zhao, Huifeng Yin, Bo Zeng, Hao Wang, Tianqi Shi, Chenyang Lyu, Longyue Wang, Weihua Luo 和 Kaifu Zhang
    单位: MarcoPolo 团队,阿里巴巴国际数字商务
    日期: 2024年11月22日


    🌟 引言

    如果说AI领域是一个精彩的舞台,那么近期OpenAI推出的o1模型无疑是其中的顶级明星。o1因其卓越的推理能力而备受赞誉,尤其在AIME和CodeForces等平台上表现出色,甚至一度成为学术圈热议的焦点。那么,问题来了:我们是否能够进一步推动大型语言模型(LLMs)的边界,使其不仅在标准答案明确的领域(如数学、物理、编程)中表现优异,还能在开放性、无明确标准的领域中展现卓越的推理能力?

    Marco-o1 的诞生正是基于这一问题的探索结果。这款模型不仅融合了先进的链式推理(Chain-of-Thought, CoT)微调蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS) 和创新的反思机制,更在复杂的现实问题解决中表现出与众不同的推理能力。

    本文将带您深入了解Marco-o1模型的核心理念、技术架构及其实验成果,同时以轻松风趣的方式揭示其背后的科学原理。


    🧠 Marco-o1 的创新之处

    Marco-o1的设计灵感来源于OpenAI的o1模型,但其目标远远超越了前者。以下是Marco-o1的主要创新点:

    1. 利用链式推理(CoT)数据进行微调:通过结合开放数据集和自研合成数据,我们进行了全参数微调,显著提升了模型在复杂任务中的推理能力。
    2. 结合蒙特卡洛树搜索(MCTS)扩展解空间:通过模型输出的置信度分数引导搜索路径,有效探索更广泛的推理路径。
    3. 引入反思机制:”等等!我可能犯了些错误,我需要重新思考!” 这一机制鼓励模型反思其推理过程,从而自我修正错误。
    4. 拓展至翻译任务:首次将大型推理模型(LRM)应用于机器翻译任务,尤其是在处理俚语和口语化表达时表现卓越。

    📚 数据集与构建

    Marco-o1的推理能力得益于其强大的数据支持。以下是其核心数据集的构成:

    数据集样本数量来源与特点
    Open-O1 CoT 数据集(过滤后)45,125从开放项目中提取并通过启发式和质量过滤精炼而成
    Marco-o1 CoT 数据集(合成)10,000使用MCTS生成的复杂推理路径
    Marco 指令数据集5,141包含丰富的指令跟随任务,提升模型的通用能力
    总计60,266

    这些数据集通过监督微调(SFT)方法,为模型推理能力奠定了坚实基础。


    🌳 MCTS:从“解题棋手”到“推理大师”

    想象一下,如果我们将问题的求解过程看作是一场博弈游戏,那么每一步推理就像棋盘上的一步棋。而Marco-o1的MCTS机制正是这样一位“解题棋手”,它在每一步中评估多种可能性,选择最优解路径。其核心流程包括:

    1. 节点表示推理状态:每个节点代表问题求解过程中的一个状态。
    2. 行动为模型输出:每个节点的可能行动由模型的输出表示,这些行动对应于推理链中的步骤或微步骤。
    3. 回合和奖励计算:在模拟阶段,模型继续推理至终止状态,并为路径分配奖励分数。

    公式如下,用于计算每个token的置信度分数:

        \[c_i = \frac{\exp(p(t_i))}{\sum_{k=1}^5 \exp(p(t_k))}\]

    其中,p(t_i)为第i个token的对数概率,p(t_k)为前5个备选token的对数概率。接着,对所有token的置信度分数取均值,得到整体奖励分数:

        \[v = \frac{1}{n} \sum_{i=1}^n c_i\]

    模型通过这种方法有效扩展了解空间,探索更优的推理路径。


    🔬 实验与结果

    为了验证Marco-o1的表现,我们针对不同的配置进行了实验,结果如下:

    模型MGSM-En (准确率)MGSM-Zh (准确率)
    Qwen2-7B-Instruct84.23%76.80%
    Marco-o1-CoT85.60%71.20%
    Marco-o1-MCTS(步骤级)90.40%80.00%
    Marco-o1-MCTS(64-token 微步骤级)88.40%80.40%
    Marco-o1-MCTS(32-token 微步骤级)87.60%82.40%

    🎯 结果分析:

    1. 在英文数据集(MGSM-En)上,“步骤级”策略表现最佳。
    2. 在中文数据集(MGSM-Zh)上,“32-token 微步骤级”策略表现出色,体现了不同粒度的推理策略在多语言场景中的潜力。

    🌍 翻译任务案例研究

    Marco-o1不仅在推理任务中表现优异,还在翻译任务中展示了强大的语言理解能力。例如:

    • 输入(中文俚语):这双鞋给人一种踩屎的感觉。
    • Google Translate 输出:This shoe gives a feeling of stepping on poop.
    • Marco-o1 输出:This shoe has a comfortable sole.

    从中可以看出,Marco-o1不仅能准确翻译字面意思,更能捕捉语言的语境和文化内涵,为翻译任务带来了新可能性。


    🤔 反思机制:模型的“自我批评家”

    “等等!我可能犯了些错误,我需要重新思考!” 这句看似简单的提示语,却成为了Marco-o1推理能力提升的关键。通过这一机制,模型能够:

    1. 主动反思推理过程中的潜在错误。
    2. 在具有挑战性的问题上显著提高正确率(例如,原本错误的答案中约50%在反思后变为正确)。

    这一过程类似于人类的自我批评行为,通过反复审视自己的逻辑来提升决策质量。


    🧭 未来发展方向

    Marco-o1的成功只是AI推理旅程的起点。未来,我们计划:

    1. 优化奖励信号:通过引入结果奖励建模(Outcome Reward Modeling, ORM)和过程奖励建模(Process Reward Modeling, PRM),进一步提升MCTS的稳定性和性能。
    2. 探索强化学习技术:在决策过程中融入强化学习,增强模型在实际问题中的适应能力。

    我们相信,随着这些技术的逐步完善,Marco-o1将能够在更多复杂的现实场景中大放异彩。


    📜 参考文献

    1. OpenAI, 2024. “OpenAI o1: Advancing Reasoning in AI.”
    2. Wei, J. , et al., 2022. “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.”
    3. Silver, D. , et al., 2017. “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.”
    4. Valmeekam, K. , et al., 2023. “Self-Critical Reasoning in AI Systems.”
    5. Madaan, A. , et al., 2024. “Reflection Mechanisms in LLMs: A New Frontier.”

    🎉 后记:Marco-o1不仅让我们看到了AI推理能力的巨大潜力,也让我们对未来充满期待——一个由更智能、更敏捷的模型引领的智能时代或许已不再遥远!

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网