Orca 2:推理技巧赋能小型语言模型,性能超越5-10倍大模型

236次阅读
没有评论

大家好,今天,我将为大家介绍一篇关于 Orca 2 的文章。Orca 2 是一种小型语言模型,它通过学习一系列推理技巧,在推理能力上超越了 5 -10 倍的大模型。

背景

大型语言模型(LLMs)正在改变人与机器之间的交互方式,并提升了许多现有应用的用户体验,如编码、网络搜索、聊天机器人、客户服务和内容创作等。这种由 LLMs 带来的转变也为新型人工智能应用铺平了道路。随着 LLMs 规模的不断扩大,例如 GPT- 4 和 PaLM- 2 等,它们展现出了前所未有的能力,尤其是在零 -shot 推理方面,包括回答复杂问题、生成解释和解决多步问题。即使在专业领域,LLMs 现在也能在美国医学执照考试等测试中取得合格分数。这些能力曾经被认为是人工智能无法达到的范畴。

问题

然而,现有对于小型语言模型的训练往往依赖于模仿学习,即复制更大、更强大的模型的输出。尽管这些模型可以生成与其“老师”风格相似的内容,但它们在推理和理解能力上往往表现不足。模仿学习可能会限制较小模型的潜力,限制它们根据问题和模型容量来利用最佳解决策略。

主要贡献及解决思路

Orca 2 的目标有两个:

一是教导较小模型如何使用一系列推理技巧,例如逐步处理、回忆再生成、回忆 - 推理 - 生成、抽取 - 生成和直接回答方法;
二是帮助这些模型确定何时使用最有效的推理策略,让它们能够在任务中表现最佳,不受模型大小的限制。

与 Orca 1 不同,Orca 2 精心设计推理策略以适应特定任务,考虑到学生模型是否具备相同的行为。更强大的 LLM 被设计为呈现引发特定战略行为的复杂提示,从而产生更精确的结果。在训练阶段,较小模型仅暴露于任务和结果行为,而不知道触发这种行为的原始提示,这种“提示擦除”技术使 Orca 2 成为一种“谨慎的推理者”。

达到的具体效果

与以往侧重于小型模型评估的研究不同,作者们提供了包含约 100 个任务和超过 36,000 个独特提示的 15 个综合性基准测试来评估 Orca 2。初步结果显示(figure 1),Orca 2 明显超越了相似规模的模型,甚至在需要推理的任务上与 5 到 10 倍大的模型相匹敌甚至超越,突显了赋予较小模型更好推理能力的潜力。

文章推荐

文章名称:Orca 2-Teaching Small Language Models How to Reason

文章链接:https://arxiv.org/pdf/2311.11045.pdf

github 链接:

结语

以上就是我对 Orca 2 这篇文章的解读。希望对大家有所帮助。

正文完
 
评论(没有评论)