Brown, T. , Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. ✅arXiv preprint arXiv:2005.14165.
Hendrycks, D. , Burns, C., Ganguli, S., and Saxton, D. (2021). Measuring massive language models’ ability to reason. ✅arXiv preprint arXiv:2108.08841.
Liu, Y. , Yuan, W., Fu, J., Zhao, Z., and Zhou, M. (2023). Chain-of-thought prompting elicits reasoning in large language models. ✅arXiv preprint arXiv:2201.11903.
Nogueira, R. , Belanger, D., and Cho, K. (2021). Reasoning about quantities in natural language. ✅arXiv preprint arXiv:2104.01216.
Touvron, J. , Lavril, T., Izacard, G., Lachaux, M., Lecun, Y., and Hoffmann, M. (2023). Llama 2: Open and efficient foundation models. ✅arXiv preprint arXiv:2307.09286.
自然语言处理领域近年来取得了突破性进展,大型语言模型(LLMs)的出现更是掀起了一场新的革命。 这些模型展现出惊人的学习能力,能够胜任各种自然语言处理任务,甚至开始涉足图像生成和规划等领域。然而,LLMs在算术任务方面却表现不佳,特别是涉及多步运算的复杂算术问题,例如多位数乘法和除法。这引发了人们对LLMs能力和局限性的思考。
本文将深入探讨LLMs在算术任务中的表现,特别是针对多位数乘法问题。 我们发现,LLMs能够自信地预测多位数乘法结果的首位数字,即使这需要进行复杂的运算才能得到。然而,LLMs却难以准确预测结果的末位数字,即使这仅仅相当于一位数乘法,理论上应该很容易学习或记忆。
为了更深入地理解这一现象,我们使用蒙特卡罗Dropout (MC Dropout) 技术来分析LLMs的置信度。 MC Dropout是一种将神经网络解释为贝叶斯神经网络的方法,它通过在测试阶段多次进行带有Dropout的正向传播来获得神经网络权重或输出的贝叶斯置信度分布。
经过实验,我们发现LLMs在预测多位数乘法结果的首位数字时表现出高置信度和准确率,即使它们可能没有学习到完整的乘法算法。 这可能是由于LLMs内部采用了某种近似计算方法,例如将数字进行四舍五入,从而得到一个近似的结果。例如,在计算 592 × 392 的首位数字时,LLMs可能将 592 近似为 600,将 392 近似为 400,然后计算 600 × 400 的首位数字,从而得出 2。
然而,在预测末位数字时,LLMs的置信度和准确率却大幅下降。 尽管末位数字的计算并不依赖于其他位数的计算结果,但LLMs却难以准确预测它。我们发现,如果将正确的结果中的其他位数作为条件输入,LLMs预测末位数字的置信度会显著提高。
这一发现表明,LLMs内部可能存在某种机制,能够识别出自己输出的错误,并根据错误的结果进行后续的预测。 这与近年来在幻觉检测领域的研究结果相呼应,研究表明,LLMs的内部状态可以用来检测其输入文本或自身输出的错误。
我们的研究结果表明,LLMs在算术任务中存在着一些意想不到的现象。 它们能够自信地完成一些看似复杂的运算,但却难以完成一些简单的任务。这可能是由于LLMs内部存在着一些我们尚未完全理解的机制,这些机制可能导致了LLMs在不同任务中的表现差异。
为了更深入地理解LLMs的算术能力,我们需要进行更多研究,例如分析LLMs内部的计算过程,以及研究LLMs如何识别和处理错误。 此外,我们还需要开发新的方法来评估LLMs的算术能力,并设计新的训练方法来提高LLMs在算术任务中的表现。
参考文献: