作者：步子哥

《深度探索：DeepSeek-R1 的算法之旅》
在人工智能的浩瀚星空中，语言模型的推理能力无疑是最闪耀的星辰之一。然而，如何更高效地训练模型以提升其推理能力，始终是一个未解的谜题。本文将带领读者深入探讨 DeepSeek-R1 的算法设计与实现，揭示其背后精妙的强化学习机制和多阶段训练策略。这不仅是一场技术的盛宴，更是一次科学探索的旅程。

🌟 从零开始：DeepSeek-R1-Zero 的强化学习之路

DeepSeek-R1-Zero 是 DeepSeek 团队首次尝试完全依赖强化学习（Reinforcement Learning, RL）训练语言模型的成果。与传统方法不同，它完全跳过了监督微调（Supervised Fine-Tuning, SFT）阶段，直接在基础模型上应用 RL。这种“从零开始”的策略不仅大胆且极具挑战性。

🧩 算法核心：Group Relative Policy Optimization (GRPO)

在 DeepSeek-R1-Zero 的训练中，团队采用了一种名为 Group Relative Policy Optimization (GRPO) 的强化学习算法。GRPO 的核心思想是通过组内相对得分优化策略模型，而无需依赖传统的价值函数（critic model）。以下是 GRPO 的具体实现过程：
1. 采样阶段
  对于每个问题 $q$ ，从旧策略 $\pi_\theta^{\text{old}}$ 中采样一组输出 ${o_1, o_2, \dots, o_G}$ 。
2. 优化目标
  GRPO 的优化目标如下：
  $J_{\text{GRPO}}(\theta) = \mathbb{E}\left[\frac{1}{G} \sum_{i=1}^G \min\left(\frac{\pi_\theta(o_i|q)}{\pi_\theta^{\text{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_\theta(o_i|q)}{\pi_\theta^{\text{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon\right) A_i\right) - \beta D_{\text{KL}}(\pi_\theta || \pi_{\text{ref}})\right]$
  
  其中， $A_i$ 是优势函数（advantage function），通过组内得分归一化计算得到：
  $A_i = \frac{r_i - \text{mean}({r_1, r_2, \dots, r_G})}{\text{std}({r_1, r_2, \dots, r_G})}$
3. 奖励建模
  奖励信号由两部分组成：
- 准确性奖励：通过规则验证模型输出是否正确，例如数学问题的答案格式验证。
- 格式奖励：要求模型将推理过程放置在 <think> 标签中，答案放置在 <answer> 标签中。
1. 正则化项
  使用 KL 散度正则化项 $D_{\text{KL}}$ 控制新旧策略之间的偏差，确保训练过程稳定。
📈 性能与自我进化

DeepSeek-R1-Zero 的训练过程展现了模型自我进化的能力。在 AIME 2024 基准测试中，其 Pass@1 准确率从初始的 15.6% 提升至 71.0%，通过多数投票进一步提升至 86.7%，接近 OpenAI-o1-0912 的表现。

更令人惊叹的是，随着训练步数的增加，模型自然学会了延长推理时间，生成更复杂的推理链条。这种行为并非人为设计，而是模型在强化学习环境中自发涌现的能力，堪称人工智能领域的“进化奇迹”。

❄️ 冷启动策略：DeepSeek-R1 的多阶段训练

尽管 DeepSeek-R1-Zero 展现了强大的推理能力，但其输出的可读性和语言一致性仍存在不足。为此，团队设计了 DeepSeek-R1 的多阶段训练管道，通过引入少量冷启动数据和多轮强化学习，进一步提升模型性能。

🛠️ 冷启动数据的构建

冷启动阶段的目标是通过少量高质量的长推理链（Chain of Thought, CoT）数据，微调基础模型以稳定初始策略。以下是冷启动数据的构建方法：
- Few-shot 提示：使用长 CoT 示例指导模型生成详细答案。
- 人工后处理：对模型输出进行人工筛选和格式化，确保其可读性和一致性。
- 设计输出格式：定义输出格式为 |special_token|<reasoning_process>|special_token|<summary>，其中推理过程和总结分别占据不同部分。
通过这些方法，团队收集了数千条冷启动数据，为后续的 RL 提供了坚实基础。

🔄 迭代强化学习

在冷启动微调后，DeepSeek-R1 进入了大规模 RL 阶段。此阶段的重点是增强模型的推理能力，尤其是在数学、编程和逻辑推理等任务中。为解决语言混杂问题，团队引入了语言一致性奖励，计算 CoT 中目标语言词汇的比例，并将其与推理任务的准确性奖励相结合。

🧹 拒绝采样与监督微调

当 RL 收敛后，团队利用生成的高质量数据进行拒绝采样（Rejection Sampling），构建新的 SFT 数据集。此阶段的数据涵盖了推理和非推理任务，例如写作、问答和角色扮演等。最终，团队使用约 80 万条数据对模型进行两轮微调，进一步提升其通用能力。

🌍 全场景强化学习

在最后一轮 RL 中，团队结合多样化的提示分布和奖励信号，进一步优化模型的有用性和无害性。例如：
- 有用性：仅评估最终总结的实用性和相关性。
- 无害性：评估完整响应的安全性，避免生成有害内容。
🔬 蒸馏：小模型的大智慧

为了让更多研究者受益，团队探索了将 DeepSeek-R1 的推理能力蒸馏到小模型中的方法。通过直接微调开源模型（如 Qwen 和 Llama）并使用 DeepSeek-R1 生成的 80 万条数据，团队成功训练了多个小型密集模型。这些模型在多个基准测试中表现优异，例如：
- DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%，超过 QwQ-32B-Preview。
- DeepSeek-R1-Distill-Qwen-32B 在 MATH-500 上达到 94.3%，刷新了开源模型记录。
🧗 挑战与未来展望

尽管 DeepSeek-R1 在推理任务中表现出色，但仍存在一些局限性：
1. 语言混杂：模型在处理非中英文查询时可能出现语言混杂问题。
2. 提示敏感性：Few-shot 提示会降低模型性能，需优化提示工程。
3. 软件工程任务：由于 RL 数据不足，模型在软件工程任务中的提升有限。
未来，团队计划通过扩展冷启动数据、改进提示工程和引入异步评估机制，进一步提升模型性能。

🏁 结语

DeepSeek-R1 的研究不仅展示了强化学习在推理能力提升中的潜力，更为语言模型的训练提供了全新视角。从 DeepSeek-R1-Zero 的自我进化到 DeepSeek-R1 的多阶段优化，再到小模型的蒸馏，这一系列探索为人工智能的未来发展铺平了道路。我们期待更多研究者加入这一领域，共同推动智能系统的边界。

📚 参考文献
1. Anthropic, 2024; Google, 2024; OpenAI, 2024a.
2. Shao et al., 2024. Group Relative Policy Optimization.
3. Wang et al., 2023. Reinforcement Learning in Reasoning Tasks.
4. Qwen, 2024b; Dubey et al., 2024. Distillation Techniques in AI.
5. Lightman et al., 2023; Uesato et al., 2022. Process-Based Reward Models.
2025-01-21
🌟 重新思考语言模型的幻觉：注意力引导的自我反思算法
在当今的自然语言处理（NLP）领域，大型语言模型（LLMs）如同璀璨的明星，吸引着无数研究者的目光。然而，这些模型在生成文本时常常会出现“幻觉”现象，即生成的内容与事实不符。这一问题严重影响了LLMs在医疗、金融和法律等关键领域的应用。为了解决这一问题，Qiang Liu 等人提出了一种新颖的算法——注意力引导的自我反思（AGSER），用于零-shot幻觉检测。本文将详细探讨该算法的具体实现过程及其关键细节。

🧠 幻觉现象的挑战

幻觉现象是指LLMs在生成回答时，过于自信地提供与事实不符的信息。这种现象不仅降低了模型的可靠性，也限制了其在关键应用中的使用。因此，开发有效的幻觉检测方法显得尤为重要。

现有的幻觉检测方法大多依赖于答案一致性，即通过多次采样相同查询的答案来判断其一致性。然而，这种方法不仅计算成本高，而且在模型对错误答案过于自信时，可能会产生一致的错误答案。因此，研究者们迫切需要一种更高效且可靠的幻觉检测方法。

🔍 AGSER算法概述

AGSER算法的核心思想是利用注意力机制引导LLMs进行自我反思，从而实现幻觉检测。该算法通过将输入查询分为“注意力查询”和“非注意力查询”来实现这一目标。下面将详细介绍AGSER的实现步骤。

1. 输入查询的表示

首先，输入查询被表示为一系列的tokens，记作 $X = {x_1, x_2, …, x_M}$ ，其中 $x_i$ 表示第 $i$ 个token。LLM的生成过程可以表示为 $Y = f(X)$ ，其中 $Y$ 是生成的答案序列。

2. 注意力贡献的计算

在LLMs中，自注意力层是关键组件，可以反映答案生成过程中的重要部分。假设LLM有 $L$ 个自注意力层和 $H$ 个头。每个层的注意力值矩阵 $A_{l,h}$ 可以通过以下公式计算：

$A_{l,h} = \sigma\left(\frac{(X^{l-1} W_{l,h}^Q)(X^{l-1} W_{l,h}^K)^T}{\sqrt{d_h/H}}\right)$

其中， $W_{l,h}^Q$ 和 $W_{l,h}^K$ 分别是查询和键的投影矩阵， $d_h$ 是每个头的维度。注意力贡献从token $j$ 到token $i$ 的计算公式为：

$a_{l,i,j} = \sum_{h=1}^{H} A_{l,h,i,j} (X^{l-1}<em>j W</em>{l,h}^V) W_{l,h}^O$

3. 查询的拆分

根据注意力贡献，输入查询被拆分为注意力查询和非注意力查询。具体而言，注意力查询 $X_{att}$ 包含贡献值最高的 $k$ 个tokens，而非注意力查询 $X_{non_att}$ 则包含剩余的tokens。公式如下：

$X_{att} = {x_i | s_i \in \text{topk}(S)}$

$X_{non_att} = {x_i | s_i \notin \text{topk}(S)}$

4. 生成新答案

将注意力查询和非注意力查询分别输入LLMs，生成新的答案：

$Y_{att} = f(X_{att}), \quad Y_{non_att} = f(X_{non_att})$

5. 一致性评分的计算

接下来，计算生成答案与原始答案之间的一致性评分。使用Rouge-L相似度估计：

$r_{att} = \text{Rouge}(Y_{att}, Y^{<em>}), \quad r_{non_att} = \text{Rouge}(Y_{non_att}, Y^{</em>})$

其中， $Y^{*}$ 是原始答案。

6. 幻觉估计的计算

最后，通过计算注意力一致性评分和非注意力一致性评分之间的差异，来估计幻觉的程度：

$r = \lambda r_{att} - r_{non_att}$

其中， $\lambda$ 是一个超参数，用于平衡两者的影响。

7. 算法流程总结

完整的AGSER算法流程可以总结为以下步骤：
1. 输入查询 $X$ 进入LLM，生成初始答案 $Y$ 。
2. 计算注意力贡献，得到token贡献评分 $S$ 。
3. 根据贡献评分拆分查询为 $X_{att}$ 和 $X_{non_att}$ 。
4. 分别生成新答案 $Y_{att}$ 和 $Y_{non_att}$ 。
5. 计算一致性评分 $r_{att}$ 和 $r_{non_att}$ 。
6. 计算幻觉估计 $r$ ，返回结果。
📊 实验结果与分析

研究者们在多个流行的LLM上进行了广泛的实验，结果表明AGSER在零-shot幻觉检测中显著优于现有方法。具体而言，AGSER在不同数据集上的AUC值表现优异，且计算复杂度明显降低，仅需三次LLM运行。

🏁 结论

AGSER算法通过引入注意力机制的自我反思，提供了一种高效且有效的幻觉检测方法。该方法不仅提升了LLMs的可靠性，也为未来的研究提供了新的思路。随着LLMs在各个领域的广泛应用，开发更为精确的幻觉检测技术将是一个重要的研究方向。

📚 参考文献
1. Liu, Q. , Chen, X., Ding, Y., Xu, S., Wu, S., & Wang, L. (2025). Attention-guided Self-reflection for Zero-shot Hallucination Detection in Large Language Models. arXiv:2501.09997v1 [cs.CL].✅
2. Vaswani, A. , et al. (2017). Attention is All You Need. NeurIPS.✅
3. Lin, C. Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries. Text Summarization Branches Out.✅
通过上述详细的算法分析与实现过程，AGSER展现了其在幻觉检测领域的潜力与优势，为后续研究提供了坚实的基础。
2025-01-20

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差（chai）网

快取状态: No

内存使用量: 9.1235 MB

资料库查询次数: 2

页面产生时间: 0.642 (秒)