借一步网
作者:
在
今天我们要揭开一个引人入胜的故事——Marco-o1,一个专为开放性问题而生的推理模型。在这个人工智能的新时代,我们不再拘泥于标准答案,而是勇敢地迎接那些模棱两可、奖励难以量化的挑战。
在这场科学的探险中,Marco-o1不仅在数学、物理和编程等领域大展身手,还将目光投向了那些需要开放式解答的领域。我们的问题是:“o1模型是否能够有效地推广到没有明确标准且奖励难以量化的更广泛领域?”答案就在我们即将展开的篇章中。
Marco-o1的背后蕴含着强大的技术支持。我们利用链式思维(CoT)微调和蒙特卡罗树搜索(MCTS)来提升模型的推理能力。这就像给一位侦探配备了放大镜和地图,让他能更清晰地梳理线索,找到隐藏在迷雾中的真相。
在推理的旅途中,我们引入了推理行动策略和反思机制。这就像是给模型配备了一个小助手,时时刻刻提醒它“再想想,可能哪里出错了”。
在Marco-o1的成长过程中,数据集的选择至关重要。我们采用了监督微调策略,利用多种数据集增强模型的推理能力。
在MCTS框架中,每个节点代表着一个推理状态,而可能的行动则是由LLM生成的输出。这些输出代表着推理链中的潜在步骤或小步骤。在推理过程中,我们计算每个状态的价值,通过置信度评分来引导MCTS的搜索。
对于每个生成的令牌,我们通过应用softmax函数计算其log概率和前5个备选令牌的log概率,得到置信度评分。这个评分反映了选定令牌相对于最佳备选令牌的相对概率,从而在0到1之间归一化。
公式为:
$c_i = \frac{\exp(p(t_i))}{\sum_{k=1}^{5} \exp(p(t_k))}$
其中,$c_i$为第$i$个令牌的置信度评分,$p(t_i)$为第$i$个令牌的log概率,$p(t_k)$为前5个预测令牌的log概率。
最终,我们计算所有令牌的平均置信度评分,得到整体奖励评分:
$v = \frac{1}{n} \sum_{i=1}^{n} c_i$
在我们的实验中,我们观察到以行动为单位的MCTS搜索粒度较粗,可能导致模型忽略解决复杂问题所需的细微推理路径。为此,我们探索了不同粒度的MCTS搜索:
我们引入了一个反思机制,通过在每次思考过程结束时添加“等等!也许我犯了一些错误!我需要从头开始重新思考。”这句话,促使模型自我反思并重新评估其推理步骤。这样做显著提高了模型在解决困难问题时的表现。
在Qwen2-7B-Instruct的基础上,我们使用我们的训练数据进行SFT,创建了Marco-o1-CoT。我们还在MCTS树搜索框架内使用不同的行动策略进行实验:
在MGSM数据集的英语(En)和中文(Zh)子集上进行测试,结果如下:
结果表明,MCTS增强的模型在Marco-o1-CoT的基础上展示了改善,特别是在MGSM-zh数据集上,32个令牌的小步骤策略的准确率最高。
为了展示我们的Marco-o1模型在翻译任务中的能力,我们进行了一个案例研究,将其与Google翻译进行比较。在翻译口语和俚语表达时,我们的模型在理解上下文和细微差别方面表现出色,提供了更准确和自然的翻译。
我们的Marco-o1通过集成链式思维微调、蒙特卡罗树搜索和新颖的推理行动策略,提高了推理能力。通过MCTS的集成,我们不仅扩展了解决方案空间,还通过不同粒度的搜索探索展现了更高的准确性。
展望未来,我们计划通过结果奖励建模(ORM)和过程奖励建模(PRM)来优化MCTS的奖励信号,从而减少随机性并进一步提高性能。此外,我们正在探索强化学习技术,以微调Marco-o1的决策过程,最终提高其解决复杂现实世界任务的能力。
要发表评论,您必须先登录。
🌟 引言
今天我们要揭开一个引人入胜的故事——Marco-o1,一个专为开放性问题而生的推理模型。在这个人工智能的新时代,我们不再拘泥于标准答案,而是勇敢地迎接那些模棱两可、奖励难以量化的挑战。
在这场科学的探险中,Marco-o1不仅在数学、物理和编程等领域大展身手,还将目光投向了那些需要开放式解答的领域。我们的问题是:“o1模型是否能够有效地推广到没有明确标准且奖励难以量化的更广泛领域?”答案就在我们即将展开的篇章中。
🧠 核心技术
1. 链式思维微调与蒙特卡罗树搜索
Marco-o1的背后蕴含着强大的技术支持。我们利用链式思维(CoT)微调和蒙特卡罗树搜索(MCTS)来提升模型的推理能力。这就像给一位侦探配备了放大镜和地图,让他能更清晰地梳理线索,找到隐藏在迷雾中的真相。
2. 推理行动策略与反思机制
在推理的旅途中,我们引入了推理行动策略和反思机制。这就像是给模型配备了一个小助手,时时刻刻提醒它“再想想,可能哪里出错了”。
📊 数据集与微调
在Marco-o1的成长过程中,数据集的选择至关重要。我们采用了监督微调策略,利用多种数据集增强模型的推理能力。
🧩 解决方案空间扩展
节点与行动
在MCTS框架中,每个节点代表着一个推理状态,而可能的行动则是由LLM生成的输出。这些输出代表着推理链中的潜在步骤或小步骤。在推理过程中,我们计算每个状态的价值,通过置信度评分来引导MCTS的搜索。
计算置信度评分
对于每个生成的令牌,我们通过应用softmax函数计算其log概率和前5个备选令牌的log概率,得到置信度评分。这个评分反映了选定令牌相对于最佳备选令牌的相对概率,从而在0到1之间归一化。
公式为:
$c_i = \frac{\exp(p(t_i))}{\sum_{k=1}^{5} \exp(p(t_k))}$
其中,$c_i$为第$i$个令牌的置信度评分,$p(t_i)$为第$i$个令牌的log概率,$p(t_k)$为前5个预测令牌的log概率。
最终,我们计算所有令牌的平均置信度评分,得到整体奖励评分:
$v = \frac{1}{n} \sum_{i=1}^{n} c_i$
🔍 推理行动策略
行动选择
在我们的实验中,我们观察到以行动为单位的MCTS搜索粒度较粗,可能导致模型忽略解决复杂问题所需的细微推理路径。为此,我们探索了不同粒度的MCTS搜索:
思考后的反思
我们引入了一个反思机制,通过在每次思考过程结束时添加“等等!也许我犯了一些错误!我需要从头开始重新思考。”这句话,促使模型自我反思并重新评估其推理步骤。这样做显著提高了模型在解决困难问题时的表现。
🎓 实验结果
在Qwen2-7B-Instruct的基础上,我们使用我们的训练数据进行SFT,创建了Marco-o1-CoT。我们还在MCTS树搜索框架内使用不同的行动策略进行实验:
在MGSM数据集的英语(En)和中文(Zh)子集上进行测试,结果如下:
结果表明,MCTS增强的模型在Marco-o1-CoT的基础上展示了改善,特别是在MGSM-zh数据集上,32个令牌的小步骤策略的准确率最高。
🔄 翻译任务中的案例研究
为了展示我们的Marco-o1模型在翻译任务中的能力,我们进行了一个案例研究,将其与Google翻译进行比较。在翻译口语和俚语表达时,我们的模型在理解上下文和细微差别方面表现出色,提供了更准确和自然的翻译。
🏁 结论与展望
我们的Marco-o1通过集成链式思维微调、蒙特卡罗树搜索和新颖的推理行动策略,提高了推理能力。通过MCTS的集成,我们不仅扩展了解决方案空间,还通过不同粒度的搜索探索展现了更高的准确性。
展望未来,我们计划通过结果奖励建模(ORM)和过程奖励建模(PRM)来优化MCTS的奖励信号,从而减少随机性并进一步提高性能。此外,我们正在探索强化学习技术,以微调Marco-o1的决策过程,最终提高其解决复杂现实世界任务的能力。