Chain-of-Draft: 通过更少写作实现更快思考的大型语言模型推理方法

Chain-of-Draft: 通过更少写作实现更快思考

一种高效的大型语言模型推理方法

Silei Xu, Wenhao Xie, Lingxiao Zhao, Pengcheng He

Zoom Communications

简介

Chain-of-Draft (CoD)是一种新颖的大型语言模型(LLM)推理方法，受人类认知过程启发，通过生成简洁但信息丰富的中间推理输出来解决复杂任务。与传统的Chain-of-Thought (CoT)方法相比，CoD在保持或提高准确性的同时，显著减少了token使用量（低至7.6%），大幅降低了计算成本和响应延迟。

背景与动机

大型语言模型通过Chain-of-Thought (CoT)提示技术在复杂推理任务上取得了显著进展。然而，CoT方法通常产生冗长的推理步骤，导致高计算成本和延迟。与此不同，人类在解决复杂问题时往往只记录关键信息，而非详细展开每一步。

CoD正是受这种人类认知过程启发，旨在模拟人类简洁高效的思考方式，通过减少冗余信息，专注于关键洞察，从而在保持推理质量的同时提高效率。

原理与设计思想

CoD的核心设计思想是让LLM在推理过程中生成最小化但信息密集的中间输出，类似于人类解决问题时的草稿记录。具体实现方式包括：

将每个推理步骤限制在五个单词以内
专注于推进问题解决的关键信息
抽象化非关键上下文细节
保持逐步推理的范式，确保逻辑连贯性

# Chain-of-Draft系统提示示例
"Think step by step, but only keep a minimum draft for
each thinking step, with 5 words at most. Return the 
answer at the end of the response after a separator ####."

CoD与CoT的对比

以下是一个简单算术问题的不同推理方法对比：

问题：Jason有20个棒棒糖。他给了Denny一些棒棒糖。现在Jason有12个棒棒糖。Jason给了Denny多少个棒棒糖？

标准提示

直接给出答案，不展示推理过程。

A. 8✅

Chain-of-Thought

详细的逐步推理过程，包含大量冗余信息。

A. Let's think through this step by step:✅
1. Initially, Jason had 20 lollipops.
2. After giving some to Denny, Jason now has 12 lollipops.
3. To find out how many lollipops Jason gave to Denny, we need to calculate the difference...
4. We can set up a simple subtraction problem...
5. Putting in the numbers: 20 - 12 = Lollipops given to Denny
6. Solving the subtraction: 20 - 12 = 8
Therefore, Jason gave 8 lollipops to Denny.
#### 8 lollipops

Chain-of-Draft

简洁的推理步骤，只保留关键信息。

A. 20 - x = 12; x = 20 - 12 = 8. #### 8✅

实验结果与性能分析

研究团队在多个推理任务上评估了CoD的性能，包括算术推理(GSM8k)、常识推理(日期理解和运动理解)和符号推理(硬币翻转)。

91%

GSM8k准确率

80%

Token减少率

76%

延迟降低率

7.6%

最低Token使用率

实验结果表明，CoD在保持与CoT相近或更高的准确率的同时，显著减少了token使用量和响应延迟。特别是在运动理解任务中，CoD将Claude 3.5 Sonnet的平均输出token从189.4减少到14.3，减少了92.4%。

讨论与局限性

优势：

显著降低计算成本和响应延迟
保持或提高推理准确性
更接近人类认知过程，提高自然性
适用于实时应用和资源受限场景

局限性：

在零样本设置下性能下降明显
在小参数模型上表现不如CoT
可能缺乏足够的CoD风格训练数据

结论与未来展望

Chain-of-Draft (CoD)通过模拟人类简洁高效的思考方式，成功解决了大型语言模型推理过程中的冗长性问题。实验证明，CoD在保持或提高准确性的同时，显著降低了计算成本和响应延迟，为LLM的实际应用提供了新的思路。

未来研究方向包括：

将CoD与其他延迟降低方法结合，进一步优化性能
探索使用紧凑推理数据训练模型，提高CoD在小模型上的表现
研究自适应CoD方法，根据任务复杂度动态调整推理简洁度

更多详情请参考论文: Chain of Draft: Thinking Faster by Writing Less (arXiv:2502.18600v2)

代码和数据: https://github.com/sileix/chain-of-draft

Chain-of-Draft: 通过更少写作实现更快思考

一种高效的大型语言模型推理方法

lightbulb简介

psychology背景与动机

architecture原理与设计思想

compareCoD与CoT的对比

analytics实验结果与性能分析

warning讨论与局限性

insights结论与未来展望

发表评论 取消回复

简介