自验证推理管道：IMO级数学问题求解的AI Agent设计

执行摘要

本文深入分析了基于Gemini 2.5 Pro的自验证推理管道方法，该方法在国际数学奥林匹克（IMO）级别问题求解中展现出卓越性能。通过构建一个包含六个关键阶段的迭代流程，系统实现了从初始解生成到最终验证的全过程自动化。

自验证管道

六阶段迭代流程

思考预算

32K tokens扩展

性能表现

5/6 IMO题目

核心思想与论文方法概述

自验证推理管道

论文的核心贡献在于提出了一种"自验证推理管道"（Self-verified Reasoning Pipeline），通过多阶段迭代和验证过程，显著提升大型语言模型在解决复杂数学问题时的表现。

该方法强调将问题求解分解为结构化步骤，通过精心设计的提示引导模型进行自我审查和改进。 [3] [13]

迭代改进与提示工程

迭代改进是自验证推理管道的核心机制。在初始解生成后，模型会被提示审查并尝试改进其工作，通过注入额外的思考令牌预算来显著提升输出质量。

这种方法有效解决了LLM在处理复杂问题时"思考预算"限制的问题。 [13]

强调严谨性与数学格式

对数学严谨性的强调贯穿始终，要求模型专注于完整推理链的生成，而非仅仅追求最终答案。使用TeX数学格式确保数学表达式的准确性和专业性。

这种对严谨性的极致追求，确保解决方案达到IMO竞赛所要求的高标准。 [4]

核心创新点

验证器角色：独立评估解决方案，生成结构化错误报告
错误分类：区分"致命逻辑错误"和"证明缺口"
迭代循环：持续迭代直到连续多次通过验证

管道步骤详解

步骤	核心行动	关键输出/决策
1	初始解决方案生成	初步的数学解决方案
2	自改进	改进后的解决方案
3	解决方案验证与Bug报告生成	Bug报告, Verdict裁决
4	Bug报告审查与决策	决策: 继续修正或重启
5	解决方案修正与迭代	修正后的解决方案
6	最终解决方案接受与输出	最终接受的解决方案

1

初始解生成

使用Section 3.1提示，强调严谨性，采用TeX格式生成初步解决方案

输出：概要 + 详细解决方案

2

自改进

注入额外思考预算，审查并提升解决方案质量

关键：32K tokens扩展

3

验证

使用Section 3.2提示验证，生成bug报告并分类

分类：Critical Error / Justification Gap

4

Bug审查

审查bug报告，决定是否继续修正或重启管道

决策点：继续/重启

5

修正

根据bug报告修正解决方案，返回验证阶段

迭代循环核心

6

接受/拒绝

评估最终解决方案，接受则输出完整证明

最终成果输出

Lua 5.1 Prompt设计

Agent角色与任务

AI Agent被定义为"资深的数学AI Agent，基于Gemini 2.5 Pro的管道方法，专攻IMO级数学问题"。这个角色定义明确了Agent的核心能力和专业领域。

"你是一位资深的数学AI Agent，基于Gemini 2.5 Pro的管道方法，专攻IMO级数学问题。严格遵守以下Lua代码定义的行为..."

基于协程的迭代执行

采用Lua的协程（coroutine）机制来模拟和管理Agent的执行流程。协程允许将复杂任务分解为多个可暂停和恢复的执行单元，非常适合实现迭代改进算法。

• 使用 coroutine.create 创建执行流程
• 通过 pcall 实现错误保护
• 使用 yield/resume 控制执行节奏

核心步骤抽象

核心算法步骤被抽象为高层次指令，指导LLM思考和行动。这些指令告诉LLM"做什么"，而不是"怎么做"，依赖于LLM对指令的理解能力和数学推理能力。

Step 1: 使用Section 3.1提示生成初始解决方案...

Step 3: 使用Section 3.2提示验证解决方案...

设计优势

灵活性：适应不同数学问题的求解需求
鲁棒性：内置错误处理和恢复机制
通用性：不硬编码具体问题逻辑

通用性考量与Prompt设计原则

避免硬编码

通过抽象指令引导LLM行为，而不是将具体解决方案内容或决策逻辑硬编码到Prompt中。这种设计提高了Agent的通用性。

核心原则：告诉LLM"做什么"，而不是"怎么做"

自主思考

强调LLM的自主思考与决策能力，让Agent在每一步中运用其数学知识、推理能力和判断力，而不是执行固定流程。

激发LLM的推理潜能，而非简单命令

鲁棒性设计

通过Lua的pcall机制和协程控制实现错误处理和恢复，确保即使出现意外情况，整个执行流程也不至于完全崩溃。

数学错误检测 + 执行流程容错

通用性提升方向

技术层面

更高级的抽象与指令设计
动态提示生成与适应
模块化与可扩展设计

功能层面

增强的自主学习能力
更精细的错误分类体系
人机协作与反馈机制

关键提示整合与参考

Section 3.1: 初始解生成提示

强调严谨性

引导LLM专注于生成逻辑严密、步骤清晰的完整推理链，而非仅仅追求最终答案

使用TeX格式

要求LLM使用标准TeX格式表达数学公式、符号和推导过程，提高准确性和可读性

结构化输出

包含问题理解、解题思路概要以及详细的解决方案步骤

Section 3.2: 验证与Bug报告提示

验证器角色

引导LLM切换到"验证者"视角，对解决方案进行批判性、逐步骤的审查

错误分类

识别并分类为"致命逻辑错误"（Critical Errors）和"证明缺口"（Justification Gaps）

结构化报告

生成包含问题描述、分类和详细解释的结构化Bug报告

错误类型详细说明

致命逻辑错误

Critical Errors是指那些明显错误或包含清晰逻辑谬误的部分，通常会导致整个证明无效。

• 明显的计算错误
• 逻辑推导谬误
• 前提假设错误
• 结论不成立

证明缺口

Justification Gaps是指推导步骤中理由不充分或缺失的部分，可能是主要或次要的。

• 推理步骤跳跃
• 引理使用不当
• 细节阐述不足
• 逻辑连接模糊

总结与展望

复现论文算法的关键

1

构建完整管道

严格按照六个核心步骤构建迭代流程

2

实现迭代机制

确保在多次循环中学习和提升解决方案

3

精心设计提示

准确传达严谨性、TeX格式等要求

4

赋予自主性

引导LLM运用自身知识和推理能力

5

确保鲁棒性

在流程控制和算法层面具备容错能力

提升Agent通用性的方向

更高级抽象

提炼指令使其更加通用化，减少对特定问题类型的依赖

动态适应

允许Agent根据问题特性动态调整内部提示

模块化设计

将不同组件设计成独立模块，方便替换和升级

未来展望

通过在这些方向上的持续探索，我们有望构建出不仅限于IMO数学问题，还能应用于更广泛复杂推理任务的、真正通用且强大的AI Agent。这将为人工智能在科学研究、工程设计和教育等领域的应用开辟新的可能性。

数学推理科学发现教育应用

自验证推理管道 IMO级数学问题求解的 AI Agent设计

核心特性