Mind Evolution 论文解读

一篇题为「Evolving Deeper LLM Thinking」的研究论文,介绍了一种名为「Mind Evolution」的新策略,旨在增强大型语言模型(LLM)的问题解决能力。
该论文提出了一种名为「Mind Evolution」的进化搜索策略,以提高大型语言模型(LLM)在复杂问题解决中的推理时间计算能力。与需要形式化问题的传统方法不同,Mind Evolution 直接在自然语言空间中运行,利用 LLM 生成、重组和优化候选解决方案。
Mind Evolution 过程的核心如图 1 所示。它首先生成一组初始解决方案。然后对这些解决方案进行评估,并选择最有希望的方案进行优化。优化步骤称为「通过批判性对话进行优化(RCC)」,涉及 LLM 同时扮演「批评者」和「作者」的角色,根据反馈迭代改进解决方案,如图 2 所示。这种选择和优化的过程持续进行,直到找到有效解决方案或达到计算预算限制。

图 1:Mind Evolution 是一种基于遗传的进化搜索策略,在自然语言空间中运行。
图 1:Mind Evolution 是一种基于遗传的进化搜索策略,在自然语言空间中运行。
图 2:说明通过批判性对话(RCC)进行优化的过程。
图 2:说明通过批判性对话(RCC)进行优化的过程。

该方法使用几个超参数来控制其行为,这些参数在表 1 中定义。这些参数控制着世代数、种群数和候选解决方案数等方面。

表 1:Mind Evolution 中的超参数定义。
表 1:Mind Evolution 中的超参数定义。

Mind Evolution 的有效性在几个自然语言规划基准测试中得到了验证:

  • TravelPlanner:该策略在验证集上达到了 95.6% 的成功率,显著优于 1-Pass(5.6%)和 Best-of-N. 55.6%)等基线方法。不同问题难度的性能详情如图 3 所示。
  • Natural Plan - Trip Planning:Mind Evolution 解决了 96.2% 的验证问题,而 1-Pass 只解决了 20.6%。按要访问的城市数量划分的成功率如图 4 所示。
  • Natural Plan - Meeting Planning:该方法达到了 85.0% 的成功率,远高于 1-Pass 的 20.8%。其性能随着需要会面的人数而良好扩展,如图 5 所示。
图 3:TravelPlanner 基准测试验证集上的成功率。
图 3:TravelPlanner 基准测试验证集上的成功率。
图 4:按要访问的城市数量划分的 Trip Planning 基准测试验证集上的成功率。
图 4:按要访问的城市数量划分的 Trip Planning 基准测试验证集上的成功率。
图 5:按要会面的人数划分的 Meeting Planning 基准测试验证集上的成功率。
图 5:按要会面的人数划分的 Meeting Planning 基准测试验证集上的成功率。

表 2 展示了这些任务的结果综合比较,显示了 Mind Evolution 的卓越成功率和效率。

表 2:在基准自然语言规划任务上的实验结果。
表 2:在基准自然语言规划任务上的实验结果。

此外,论文引入了一个名为 StegPoet 的新挑战性任务,即需要将隐藏信息编码到创意文本中。Mind Evolution 在此任务上也表现出色,成功率达到 79.2%,详情见表 6 和图 11。

表 6:在 StegPoet 上的实验结果。
表 6:在 StegPoet 上的实验结果。
图 11:每个难度级别的成功率直方图。
图 11:每个难度级别的成功率直方图。

总之,该论文表明,Mind Evolution 是一种强大且通用的策略,通过在自然语言空间中利用进化搜索,增强 LLM 解决复杂、无约束问题的能力。

发表评论

人生梦想 - 关注前沿的计算机技术 acejoy.com 🐾 步子哥の博客 🐾 背多分论坛 🐾 知差(chai)网 🐾 DeepracticeX 社区 🐾 老薛主机 🐾 智柴论坛 🐾