大模型推理的奥秘：返璞归真，「重试」就够了吗？

The Secret of LLM Reasoning: Back to Basics, Are Retrials Enough?

大型语言模型（LLMs）的崛起，正以前所未有的速度重塑着人工智能的版图。从 OpenAI 的 GPT 系列到 Meta 的 Llama，这些「数字大脑」展现出的强大推理和问题解决能力，点燃了我们对通用自主智能体（General-Purpose Autonomous Agents）的无限遐想。它们不仅能在知识密集型任务中对答如流 (West et al., 2009)，还能在复杂环境中大显身手，比如玩转电子游戏 (Fan et al., 2022)、自如地浏览网页 (Yao et al., 2022)，甚至学会使用外部工具 (Schick et al., 2023)。这股浪潮自然也催生了各种旨在进一步提升 LLM 推理能力的提示（Prompting）框架 (Wei et al., 2022; Besta et al., 2024; Yao et al., 2024; Shinn et al., 2023 等)。

然而，正如任何快速发展的领域一样，挑战也随之而来。近期，研究焦点转向了那些通过自我评估和「语言化反馈」（Verbalized Feedback）来迭代优化输出的策略。想象一下，模型不仅要解决问题，还要能像个学生一样反思自己的错误，并给出详细的改进方案。诸如 Self-Refine (Madaan et al., 2023) 和 Reflexion (Shinn et al., 2023) 等方法就是这类策略的代表。它们听起来很智能，效果也不错，但代价是什么呢？

答案是：复杂性和成本。这些方法要求模型具备识别和修正自身错误的能力，这无疑增加了计算的复杂度。更重要的是，每次迭代中加入的「反思」和「反馈」文本，会不断增大模型的输入（上下文窗口），导致后续迭代的成本像滚雪球一样越滚越大。举个例子，当前先进的 RAFA 策略 (Liu et al., 2024)，在使用 GPT-4 模型解决仅包含 100 个样本的「24点游戏」基准测试时，成本竟然高达 约 600 美元！这不禁让人思考：为了追求极致的推理能力，我们是否陷入了过度设计的怪圈？

就在大家竞相构建更复杂、更「智能」的反馈回路时，我们不禁要问一个看似简单的问题：如果模型第一次尝试失败了，我们能不能就让它像我们考试答错题一样，擦掉重来，再试一次呢？

这便是我们在这项工作中探索的核心概念——「无反馈重试」（Retrials without feedback）。这是一个极其简单，甚至可以说是「朴素」的机制：当外部环境（比如一个简单的验证器）判断模型的答案不正确时，不给任何复杂的语言反馈，直接让模型重新尝试，直到找到正确答案或达到预设的尝试次数（或计算预算）上限。

这种方法摒弃了复杂的自我反思和语言反馈环节，大大简化了优化过程。那么，这种「简单粗暴」的重试，效果会如何？它能否在成本效益上挑战那些精心设计的复杂框架？我们的研究结果或许会让你大吃一惊：在许多情况下，简单的重试机制不仅效果显著，甚至能让基础的推理方法（如思维链 CoT）在成本效益上超越那些更复杂的「明星」框架（如思维树 ToT 或 Reflexion）。

这动摇了一个普遍的假设：更复杂的推理策略必然带来更好的性能。我们的工作旨在通过成本效益的视角重新审视 LLM 的推理优化，并提出一个引人深思的问题：或许，我们真正需要的，仅仅是「重试」？

📜 回顾往昔：推理框架的「军备竞赛」

在深入探讨「无反馈重试」之前，让我们先快速浏览一下当前提升 LLM 推理能力的主流方法，感受一下这个领域的「军备竞赛」有多激烈。

💡 提示工程基础 (Prompting Basics):
- 少样本提示 (Few-shot Prompting): 这是利用 LLM 强大模仿能力的基础 (Brown et al., 2020)。通过在提示中给出几个高质量的输入输出示例，引导模型「照猫画虎」。
- 思维链 (Chain-of-Thought, CoT): 这是一个里程碑式的方法 (Wei et al., 2022; Kojima et al., 2022)。它不直接要求答案，而是引导模型一步步「思考」，将复杂问题分解为中间步骤，最后得出结论。就像我们解决数学题时打草稿一样。还有一些变种，如分解提示 (Khot et al., 2023) 和「从少到多」提示 (Zhou et al., 2023)，都在探索如何更好地引导分解过程。
- 算法思维 (Algorithm of Thoughts, AoT): 更进一步，直接在提示中加入算法示例，试图让 LLM 遵循特定的算法路径 (Sel et al., 2024)。
- 自洽性 (Self-Consistency, CoT-SC): 这是对 CoT 的增强 (Wang et al., 2022, 2023)。它让模型生成多个不同的思考链条，然后通过「少数服从多数」的投票方式选出最可靠的答案。
🔄 迭代与反馈：智能的反思者 (Refinement Strategies):
- 闭环交互: 这类方法允许 LLM 与外部环境（如工具、API）互动，获取信息并修正行为。ReAct (Yao et al., 2023)、REFINER (Paul et al., 2023) 和 Self-Refine (Madaan et al., 2023) 是其中的代表。
- 语言化反馈: Reflexion (Shinn et al., 2023) 更进一步，让模型根据过去的失败尝试生成「语言反馈」，指导后续尝试。AdaPlanner (Sun et al., 2023) 甚至整合了成功和失败经验的反馈。RAFA (Liu et al., 2024) 则在行动前进行规划，收集对潜在行动的反馈，然后修正计划。这些方法试图模拟人类的反思学习过程，但正如前面提到的，复杂性和成本是其主要挑战。
🌳 结构化探索：思维的树与图 (Tree/Graph Search):
- 思维树 (Tree of Thoughts, ToT): 将推理过程想象成一棵树，每个节点是一个「想法」或中间步骤 (Yao et al., 2024)。通过评估不同分支（想法）的价值，并使用搜索算法（如广度优先 BFS 或深度优先 DFS）来探索这棵树，寻找最佳答案。
- 思维图 (Graph of Thoughts, GoT): 放宽了树结构的限制，允许更复杂的想法连接方式，形成一张图 (Besta et al., 2024)。
- 规划与搜索: Reasoning via Planning (RAP) (Hao et al., 2023) 结合了世界模型和蒙特卡洛树搜索 (MCTS) 来优化推理。Language Agent Tree Search (LATS) (Zhou et al., 2024) 则利用环境交互替代了世界模型。

可以看到，研究者们为了榨取 LLM 的推理潜力，发展出了越来越精巧、复杂的框架。然而，这种复杂性竞赛往往伴随着成本的急剧上升。「无反馈重试」正是对这一趋势的反思：我们能否用更简单、更经济的方式达到甚至超越这些复杂方法的效果？是时候让实验来说话了。

🔬 实验大舞台：简单与复杂的正面交锋

为了验证「无反馈重试」的潜力，我们设计了一系列实验，让几种代表性的推理策略在相同的规则下进行较量。

🎯 基准任务：三大「考场」

我们选择了三个不同类型的任务来全面评估模型的推理能力：

🔢 24点游戏 (Game of 24): 一个经典的数学谜题。给出四个数字，要求使用加减乘除运算，让每个数字恰好使用一次，最终结果等于 24。这是一个考验算术推理和搜索能力的任务。我们使用了 Yao et al. (2024) 论文中指定的 100 个测试谜题。
- 评价指标: 成功率 (Success Rate) – 解出的谜题百分比。
- 效率指标: 成本 (Cost) – 以美元计价。
💻 HumanEval: 一个编程挑战任务。根据给出的 Python 函数文档字符串（docstring），生成能够通过单元测试的函数代码。这考验的是代码生成和理解自然语言需求的能力。我们使用了 Shinn et al. (2023) 论文中的 161 个 Python 编程题目。
- 评价指标: Pass@1 准确率 – 模型第一次尝试生成的代码通过所有测试用例的比例。
- 效率指标: 成本 (Cost) – 以美元计价。
❓ HotpotQA: 一个大规模的多跳问答数据集 (Zhilin et al., 2018)。回答问题需要结合来自多个文档的信息，考验模型的复杂信息检索和整合能力。对于允许多步交互的方法（如 ToT），我们提供了 API 环境让其可以搜索文档和查找信息。我们遵循先前研究 (Zhou et al., 2024; Shinn et al., 2023)，在随机选取的 100 个样本上进行评估。
- 评价指标: 精确匹配 (Exact Match, EM) – 模型给出的答案与标准答案完全一致的比例。
- 效率指标: 成本 (Cost) – 以美元计价。

🤖 参赛选手：四大策略

我们选取了四种具有代表性的提示策略，并将「无反馈重试」机制应用于它们：

直接输出 (Input-Output, IO): 最简单的方式，直接让 LLM 根据输入生成答案，没有任何中间思考步骤。
思维链 (Chain-of-Thought, CoT): 引导模型分步思考，生成中间推理过程 (Wei et al., 2022)。
思维树 (Tree-of-Thoughts, ToT): 将问题分解为多个思维链，构成树状结构，并使用评估和搜索算法 (Yao et al., 2024)。
反思 (Reflexion): 在失败后生成语言反馈，用于指导下一次尝试 (Shinn et al., 2023)。

🧠 基础模型：两位「大脑」

我们选用了两个当前流行的 LLM 作为实验的基础：

GPT-4o-mini: OpenAI 推出的高效能模型 (OpenAI and et al., 2024)。
LLaMA-3.3-70B: Meta AI 的大型开源模型 (Grattafiori et al., 2024)。

这两个模型的成本结构不同（详见文末附录表格），这有助于我们观察成本效益在不同模型上的表现。

⚙️ 实验流程与分析

我们的核心实验设计围绕「带预算的迭代重试」：

第一轮尝试: 所有方法首先尝试解决所有样本。
验证与重试: 对于每个样本，使用任务自带的验证器（如 24 点游戏的计算结果检查，HumanEval 的单元测试）判断答案是否正确。
迭代: 对于上一轮未能解决的样本，进入下一轮重试。
预算限制: 这个过程持续进行，直到所有样本都被解决，或者预设的总计算成本（美元）耗尽。如果在某轮迭代中途预算耗尽，实验立即停止。

我们主要关注以下几个维度的分析：

成本-质量权衡分析: 绘制每个方法在不同成本下的性能（成功率/准确率/EM），观察哪种方法在给定预算内能达到最佳效果。
重试次数-质量分析: 绘制性能随重试次数（迭代轮数）的变化，观察方法的「样本效率」——即需要多少次尝试才能达到某个性能水平。
温度参数分析: 探索 LLM 的「温度」（temperature）参数对结果的影响。温度控制输出的随机性，较高的温度可能有助于探索不同的解决方案。我们针对 CoT 和 ToT 在 24 点游戏上进行了这项分析。

现在，让我们揭开实验结果的面纱，看看这场简单与复杂的较量结果如何。

📊 结果揭晓：成本效益的惊人反转？

实验结果为我们描绘了一幅引人入胜的图景，尤其是在成本效益方面，简单方法展现出了惊人的潜力。

💰 省钱才是硬道理？简单方法的逆袭

核心发现： 在给定的成本预算内，简单的 IO 和 CoT 提示策略，在结合了「无反馈重试」机制后，其成本效益往往显著优于更复杂的 ToT 和 Reflexion 策略。

观察图 1 (GPT-4o-mini) 和图 4 (Llama-3.3-70B. ，我们可以清晰地看到这一趋势。✅

Figure 1: Comparing the cost-quality trade-off of IO, CoT, ToT, and Reflexion using GPT-4o-mini as the base model. Within the indicated budget, simpler methods outperform more complex ones while remaining cost-efficient.

图 3 (Llama-3.3-70B 温度分析图): Llama 模型上的温度分析结果不如 GPT-4o-mini 那样清晰。虽然也能看到一些性能随温度变化的趋势，但曲线尚未达到平台期。我们推测这可能是因为 Llama-3.3-70B 的使用成本比 GPT-4o-mini 高大约三倍（见附录表 1），导致在相同的预算下，实验尚处于早期阶段，未能充分展现温度的长期影响。

解读与启示:

温度是优化杠杆: 温度控制着 LLM 输出的随机性。更高的温度意味着更多样化的尝试。对于 CoT 这样的单路径推理方法，更高的温度似乎能有效帮助模型跳出局部最优解，通过重试探索到正确的思路。
复杂方法对温度的敏感度: 对于 ToT 这样本身就涉及多路径探索和评估的复杂方法，温度的影响可能更为微妙。过高的温度可能会干扰其内部评估和搜索机制的稳定性。
成本限制的影响: Llama 模型的温度实验结果提示我们，预算限制可能会影响我们观察到的现象。未来需要更大规模的实验来验证这些趋势。

综合来看，我们的实验结果有力地证明了「无反馈重试」机制的价值。它简单、经济，并且在多种任务和模型上表现出色，甚至常常优于那些计算成本高昂的复杂反馈策略。这促使我们重新思考 LLM 推理优化的方向。

🤔 深入探讨：重试机制的启示与未来

我们的研究结果，特别是图 1 和图 4 所展示的成本效益数据，清晰地表明，像思维链（CoT）这样的相对简单的方法，在结合了「无反馈重试」后，其效率远超那些设计复杂的推理策略。在某些任务上，我们甚至用最少的资源（低成本、非顶级但高效的模型如 GPT-4o-mini）就取得了当前最佳（state-of-the-art）的性能水平。

研究还揭示了几个有趣的现象：

成本效益受任务和模型双重影响: 没有一种方法能在所有场景下都绝对最优。任务的特性（如是否需要与环境交互）和基础模型的内在能力，共同决定了哪种策略更具优势。
温度调优潜力巨大: 通过调整温度参数，我们可以进一步提升重试机制的性能，尤其是在 GPT-4o-mini 这样的模型上，高温 CoT 表现惊人。

这些发现不仅挑战了「越复杂越好」的普遍看法，也为未来 LLM 推理研究开辟了新的可能性。

🚀 未来工作展望

虽然「无反馈重试」展现了巨大潜力，但仍有许多值得探索的方向：

扩大预算边界: 当前实验受限于预设的成本预算。未来，我们希望进行更大规模的实验，观察在更高预算下，各种方法的性能曲线将如何演变。特别是在 HumanEval 任务中，图 5 和图 6 暗示，如果预算充足，ToT 和 Reflexion 最终可能会超越 IO 和 CoT。虽然这并不否定我们关于成本效益的结论，但了解完整的性能图景仍然重要。
利用重试信息进行优化: 目前的重试机制是被动的——错了就重来。未来能否设计出更智能的策略，主动利用「发生过重试」这一信息来优化后续的推理过程？例如，模型能否根据失败的次数或模式调整其内部策略，从而减少达到正确答案所需的尝试次数？
应对「无验证器」任务: 这是当前方法最主要的局限性（详见下一节）。我们目前的重试依赖于一个明确的、确定性的验证器来判断答案是否正确（比如 24 点游戏的计算结果，HumanEval 的单元测试）。但许多现实世界任务并没有这样简单的「答案检查器」（例如，评估一篇文章的质量，或者开放式问答）。如何将重试机制扩展到这些缺乏明确验证标准的任务，是一个极具挑战但也至关重要的问题。也许可以探索使用另一个 LLM 作为「评估者」，或者结合弱监督信号。

我们希望这项工作能激发更多关于「重试」在成本效益推理中的作用的研究，并推动对 LLM 问题解决框架进行更广泛的优化思考。

⚠️ 已知限制：并非万能的「重试」

我们必须坦诚地指出当前「无反馈重试」方法的一个核心局限：它严重依赖于一个能够直接、确定性地验证答案正确与否的外部机制。

在我们的实验中：

24点游戏: 验证器只需计算模型给出的数学表达式结果是否等于 24。
HumanEval: 验证器只需运行模型生成的代码，看它是否能通过所有预设的单元测试。

这种明确的验证信号是触发（或停止）重试的关键。一旦找到正确答案，我们就可以停止尝试，节省计算资源。

然而，许多任务缺乏这种「非黑即白」的验证方式。以 HotpotQA 为例，虽然数据集提供了标准答案用于最终评估，但在模型 解决问题 的过程中，并没有一个简单的方法能实时判断当前生成的答案是否就是那个隐藏的标准答案。因此，在 HotpotQA 实验中，即使模型某次尝试可能已经答对，它也无法得知，只能继续尝试直到预算耗尽（或者达到最大尝试次数，如果设置了的话）。这无疑影响了效率。

对于更开放的任务，比如写一首诗、总结一段文字或者进行一场对话，答案的「正确性」或「质量」往往是主观的、多维度的，更不可能用简单的确定性规则来验证。

正如在未来工作中提到的，如何将重试的思想扩展到这些缺乏明确验证器的场景，是该方法走向更广泛应用必须克服的障碍。

🙏 致谢

作者感谢 Chris Schwiegelshohn 和 Niket Tandon 富有洞察力的讨论。Arora 的实验室部分得到了 Novo Nordisk 基金会 (NNF24OC0099109)、Pioneer Centre for AI 以及欧盟 Horizon 2020 (101168951) 的资助。

📚 参考文献 (精选)

Wei, J. , Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q. V., & Zhou, D. (2022).✅ Chain-of-thought prompting elicits reasoning in large language models. In NeurIPS. (思维链 CoT 的开创性工作)
Yao, S. , Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., & Narasimhan, K. (2024).✅ Tree of thoughts: Deliberate problem solving with large language models. NeurIPS, 36. (思维树 ToT 的代表性工作)
Shinn, N. , Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023).✅ Reflexion: language agents with verbal reinforcement learning. In NeurIPS. (Reflexion 方法的代表性工作)
Brown, T. , Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020).✅ Language models are few-shot learners. In NeurIPS. (奠定了 LLM 少样本学习能力的基础)
OpenAI and et al. (2024). Gpt-4o system card. Preprint, arXiv:2410.21276. (GPT-4o 模型的相关信息，虽然文中引用的是技术报告和系统卡，这里选择系统卡作为代表)

附录：实现细节

平台

GPT 模型通过 OpenAI API 访问。
Llama 模型通过 TogetherAI API 使用。

模型检查点与价格

实验成本根据 OpenAI 和 Together AI 当时的模型定价计算。具体使用的模型快照及其价格如下表所示：

模型	每百万 Prompt Tokens (美元)	每百万 Completion Tokens (美元)
gpt-4o-mini	0.15	0.60
LLaMA-3.3-70B	0.88	0.88

表 1: 模型快照价格。 项目实施期间使用的各模型的 OpenAI 和 TogetherAI 定价。