Zelikman, E. , Wu, Y., Mu, J., & Goodman, N. D. (2022). STaR: Bootstrapping Reasoning With Reasoning. arXiv:2203.14465.✅
Zelikman, E. , Harik, G., Shao, Y., Jayasiri, V., Haber, N., & Goodman, N. D. (2024). Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking. arXiv:2403.09629.✅
在人类的交流中,思考和表达往往是紧密相连的过程。我们经常会在说话或写作前稍作停顿,整理思路,然后才组织语言。这种”先思考,后表达”的能力对于高质量的交流至关重要。那么,人工智能语言模型能否也学会这种能力呢?最新的研究表明,答案是肯定的。
从STaR到Quiet-STaR:语言模型的自我进化之路
斯坦福大学和谷歌大脑的研究人员最近提出了两种创新技术:STaR(Self-Taught Reasoner,自学推理器)和Quiet-STaR(安静版STaR)。这两项技术标志着语言模型在自我进化方面取得了重大突破,让模型能够在没有大量人工标注数据的情况下,自主学习”思考”的能力。
STaR:从少量样本中引导推理能力
STaR技术的核心思想是让语言模型通过反复练习和自我纠错来提升推理能力。具体来说,STaR采用了以下步骤:
这个过程就像是模型在不断地”自我练习”和”自我纠错”。通过这种方式,模型可以从最初的少量样本出发,逐步掌握更复杂的推理能力。
研究表明,经过STaR训练的模型在多个数据集上的表现显著优于直接预测答案的模型。特别是在CommonsenseQA(常识问答)任务中,STaR训练的模型甚至能够与参数量大30倍的最先进模型相媲美。
Quiet-STaR:将”思考”能力泛化到更广泛的场景
在STaR的基础上,研究人员进一步提出了Quiet-STaR技术。这一技术的目标是让语言模型学会在任意文本中推断隐含的推理过程,而不仅仅局限于问答任务。
Quiet-STaR面临的主要挑战包括:
为了解决这些问题,研究人员提出了以下创新方法:
经过Quiet-STaR训练后,模型在多个任务上都表现出了显著的零样本(zero-shot)性能提升。例如,在GSM8K数学推理任务中,准确率从5.9%提升到了10.9%;在CommonsenseQA任务中,准确率从36.3%提升到了47.2%。更重要的是,这些改进是在没有针对特定任务进行微调的情况下实现的。
“思考”的价值:为什么它对语言模型如此重要?
那么,为什么”思考”能力对语言模型如此重要呢?这里有几个关键原因:
技术细节:Quiet-STaR如何工作?
Quiet-STaR的工作原理涉及一些精巧的技术细节。以下是该方法的核心组成部分:
1. 逐词并行采样
为了解决生成连续文本时的高计算成本问题,Quiet-STaR采用了一种新颖的逐词并行采样算法。这种算法允许模型同时生成多个词,大大提高了推理效率。
2. 可学习的思考标记
Quiet-STaR引入了特殊的可学习标记,用来标识内部思考的开始和结束。这些标记帮助模型学会如何生成和使用内部思考,形成了一种”元认知”能力。
3. 扩展的教师强制技术
为了帮助模型学习长期依赖关系,研究人员开发了一种扩展的教师强制技术。这种技术不仅考虑下一个词的预测,还关注更长序列的生成,从而提高模型的连贯性和一致性。
4. 迭代优化
Quiet-STaR采用迭代优化的方法,不断改进模型的推理能力。在每次迭代中,模型都会生成大量的内部思考,然后基于这些思考的质量进行自我评估和优化。
实验结果:Quiet-STaR的惊人表现
Quiet-STaR在多项任务中展现出了令人印象深刻的性能。以下是一些关键的实验结果:
最重要的是,这些改进都是在零样本设置下实现的,即模型没有经过任何特定任务的微调。这表明Quiet-STaR帮助模型获得了更强的泛化能力和迁移学习能力。
未来展望:走向更智能的AI
Quiet-STaR的成功为未来的AI发展指明了一个重要方向:让语言模型学会更加普遍和可扩展的推理方式。这一技术可能在以下几个方面产生深远影响:
结语:AI的自我进化之路
STaR和Quiet-STaR技术的出现,标志着AI正在向真正的”思考”能力迈进。这些方法不仅提高了模型的性能,更重要的是,它们为AI系统注入了一种类似人类的认知过程。
随着这些技术的进一步发展和应用,我们可能会看到更多”会思考”的AI系统出现在各个领域。这不仅将提高AI的实用性和可靠性,还可能帮助我们更好地理解人类自身的认知过程。
在这个AI快速发展的时代,STaR和Quiet-STaR无疑是一个重要的里程碑。它们展示了AI系统通过自我学习和进化来获得更高级认知能力的潜力。未来,当我们与AI交互时,或许真的能感受到它们在”思考”后再开口。
参考文献: