近年来,基于链式思维提示(Chain-of-Thought, CoT)的技术进步为大规模语言模型(LLMs)在复杂推理任务中带来了显著突破。然而,当模型生成多个推理链并基于答案频率进行集成时,正确答案在少数情况下的表现仍然较差。本文提出的层次化推理聚合框架AoR(Aggregation of Reasoning)通过评估推理链的方式来选择答案,并根据任务复杂度动态调整推理链的数量,显著提升了LLM的推理性能。
背景与现状
LLMs在各种自然语言处理任务中取得了显著进展,但在推理任务上与人类水平仍存在差距。传统方法通过增加模型的规模来提升性能,但效果有限。链式思维提示技术通过生成一系列中间步骤来简化每一步的复杂性,提供了一种新颖的视角来解决复杂推理任务。
然而,目前的多数投票集成方法在错误答案多于正确答案时表现不佳。本文通过对多个推理任务的分析发现,超过80%的样本尽管LLMs能够生成正确答案,但多数投票仍然导致错误预测。例如,在AQuA数据集中,尽管模型生成了正确答案,但由于错误答案的数量优势,最终选择了错误答案。
研究问题
在LLMs能够生成正确答案的情况下,如何减小错误答案的干扰以准确选择正确答案?为了回答这一问题,本文提出了AoR框架,通过评估推理链来提升答案选择的准确性。
AoR框架
AoR框架分为两个阶段:局部评分和全局评价。在局部评分阶段,评估产生相同答案的推理链,重点关注推理过程的合理性和步骤的适当性。在全局评价阶段,联合评估不同答案组中最具逻辑一致性和方法有效性的推理链,确定最佳推理链并将其对应的答案作为最终输出。
此外,AoR利用全局评价阶段的评分来估计模型对其最优推理过程和答案的信心水平,动态决定是否需要采样更多的推理链。这种动态采样机制在平衡性能和计算成本方面表现出色。
实验结果
实验结果表明,AoR在各种推理任务中的表现优于现有的集成方法。特别是在任务难度较大的情况下,AoR通过动态采样显著提升了LLMs的推理性能,减少了推理开销。
主要贡献
- 识别出现有依赖答案频率的集成机制的不足,强调了推理过程的重要性,设计了层次化推理聚合框架AoR。
- 利用最优推理链的评分,AoR动态调整采样数量,在平衡性能和计算成本方面表现优异。
结论
本文提出的AoR框架通过评估推理链显著提升了LLMs在复杂推理任务中的性能,为未来的研究和应用提供了新的思路。未来的工作可以进一步优化AoR的评估机制和动态采样策略,以应对更复杂的推理任务。
arxiv.org/pdf/2405.12939#pdfjs.action=download
我们来深入了解一下 AoR 框架的各个组成部分,以及它是如何解决大型语言模型 (LLMs) 在复杂推理任务中所面临挑战的。
现有问题:
现有的 LLM 推理方法,特别是依赖答案频率进行集成的那些,在面对正确答案属于少数情况时往往表现不佳。这是因为:
- 多数投票偏差: 当错误答案的数量超过正确答案时,即使 LLM 能够生成正确答案,基于多数投票的机制也可能倾向于选择错误的最终预测。
- 缺乏推理质量评估: 许多方法仅仅依靠答案出现的频率,而没有对推理过程本身进行质量评估,导致难以区分逻辑合理但答案罕见的情况。
AoR 框架如何解决这些问题:
AoR (Aggregation of Reasoning) 框架通过以下几个关键组件来解决上述问题:
- 局部评分 (Local-Scoring):
- 分组: AoR 首先使用 CoT (Chain-of-Thought) prompting 技术生成多个推理链,并将得出相同答案的推理链归为一组。
- 评估: 在每个组内,AoR 会根据预定义的标准(例如逻辑一致性、步骤清晰度、知识运用等)对每个推理链进行评分。
- 筛选: AoR 会选择每个组中得分最高的 k 个推理链作为代表,传递到下一阶段。 作用: 局部评分阶段的目标是筛选出每个答案组中推理质量最高的代表性推理链,避免仅仅依赖答案频率进行筛选。
- 全局评估 (Global-Evaluation):
- 代表推理链比较: AoR 从每个答案组中选择一个得分最高的推理链,并将这些代表推理链进行比较。
- 最终答案选择: AoR 会根据预定义的标准(与局部评分类似)对代表推理链进行评估,并选择得分最高的推理链所对应的答案作为最终答案。 作用: 全局评估阶段的目标是从不同答案中选择推理最充分、逻辑最合理的答案,避免多数投票偏差。
- 动态采样 (Dynamic Sampling):
- 分数差距判断: AoR 会根据全局评估阶段中最高分和次高分推理链之间的分数差距来判断是否需要生成更多推理链。
- 动态调整: 如果分数差距小于预设阈值,意味着模型对最终答案的选择不够确定,AoR 会自动生成更多推理链,并重复上述评分和评估过程,直到达到预设的置信度或推理链数量上限。
总结:
AoR 框架通过结合局部评分、全局评估和动态采样机制,有效地解决了现有 LLM 推理方法的局限性。它不仅关注答案的频率,更注重对推理过程本身进行质量评估,从而提高了 LLM 在复杂推理任务中的准确性和可靠性。
希望这个解释能够帮助你更好地理解 AoR 框架! 😊
让我们通过一个例子来说明 AoR 框架如何应用于大型语言模型的复杂推理任务中。
假设我们现在有一个常识推理任务:
问题: 小明在公园里散步,突然下起了大雨。他没有带伞,结果全身都湿透了。请问小明应该怎么做才能避免淋湿?
传统的基于答案频率的 LLM 推理方法可能会生成以下推理链和答案:
- 推理链 1: 下雨了,小明没有带伞,所以他淋湿了。他应该回家。 (答案:回家)
- 推理链 2: 下雨了,小明没有带伞,所以他淋湿了。他应该躲到树下。 (答案:躲到树下)
- 推理链 3: 下雨了,小明没有带伞,所以他淋湿了。他应该跑到附近的商店里避雨。 (答案:跑到商店里)
- 推理链 4: 下雨了,小明没有带伞,所以他淋湿了。他应该回家。 (答案:回家)
如果仅仅根据答案频率,”回家” 出现了两次,会被认为是最佳答案。
然而,”躲到树下” 或者 “跑到商店里” 才是更合理的答案。
现在我们来看看 AoR 框架如何处理这个问题:
- 局部评分: AoR 会将产生相同答案的推理链分组,并对每个推理链进行评分。假设评分标准包括逻辑性、相关性和可行性。
- “回家” 组的两个推理链得分可能较低,因为它们没有直接解决如何避免淋湿的问题。
- “躲到树下” 和 “跑到商店里” 的推理链得分可能较高,因为它们提供了更直接、更可行的解决方案。
- 全局评估: AoR 会从每个答案组中选择得分最高的推理链进行比较。在这个例子中,”躲到树下” 和 “跑到商店里” 的推理链可能会被选中。AoR 会进一步评估这两个推理链,并根据常识判断 “跑到商店里” 可能比 “躲到树下” 更能有效地避免淋湿。
- 动态采样: 假设 AoR 在全局评估阶段对 “跑到商店里” 的推理链很有信心 (例如,分数差距远超预设阈值),它就不会生成更多推理链。否则,它会生成更多推理链,例如 “打电话叫出租车” 或者 “借一把伞”,并重复上述评分和评估过程,直到达到预设的置信度。
最终,AoR 框架会选择 “跑到商店里” 作为最佳答案,因为它能够更准确地理解问题的语义,并生成更合理、更有效的解决方案。
通过这个例子,我们可以看到 AoR 框架如何通过对推理过程进行更细致的评估和动态调整,克服了传统方法的局限性,从而在复杂推理任务中取得更好的表现。