大语言模型的加速之道：思维骨架(Skeleton-of-Thought)

314次阅读

大家好，欢迎收听我们的人工智能播客，我是你的主播，也是资深的人工智能专家。今天我们要聊的话题是：如何通过一种全新的方式—— 思维骨架（Skeleton-of-Thought，简称 SoT），来加速大语言模型（LLM）的输出，并提高其结果质量。🚀

💡大语言模型的痛点

LLM，例如 LLaMA 和 OpenAI 的 GPT-4，正在改变我们的技术领域。然而，对 LLM 的一个普遍抱怨是它们的运行速度。在许多情况下，从 LLM 获取答案需要很长时间，这限制了 LLM 在诸如聊天机器人、协同助手和工业控制器等延迟关键功能中的应用。⏱️

🚀思维骨架的提出

为了解决这一问题，微软研究院和清华大学的研究者提出了一种新的加速 LLM 生成的方法—— 思维骨架（SoT）。不同于大多数先前需要对 LLM 模型、系统或硬件进行修改的方法，SoT 将 LLM 视为黑箱，因此可以应用于任何现成的开源（如 LLaMA）或 API 基础（如 OpenAI 的 GPT-4）模型中。🎁

🚗SoT 如何加速？

SoT 的想法源于 LLM 和人类处理信息的方式的区别。LLM 按顺序生成答案，而人类在很多情况下，会先提炼出答案的骨架，然后添加细节来解释每一点。SoT 就是按照这种人类的思维方式，将生成过程分为两个阶段：首先，SoT 让 LLM 生成答案的骨架，然后再让 LLM 给出骨架中每一点的答案。🔍

这种方法提供了一个新的加速机会，因为第二阶段的每一点的答案都可以并行生成，无论是本地模型（如 LLaMA）还是 API 基础模型（如 OpenAI 的 GPT-4）。对于 API 基础模型，我们可以对每一点发出并行的 API 请求。对于本地运行的模型，我们可以在一个批次中同时回答所有的点。💼

⚖️SoT 的效果如何？

我们在包括九个开源模型和三个 API 基础模型在内的 12 个最近发布的模型上测试了 SoT。我们使用的是 Vicuna-80 数据集，该数据集包含 80 个问题，涵盖了编程、数学、写作、角色扮演等九个类别。

结果显示，SoT 在所有模型上都提供了显著的速度提升。特别是，SoT 在 12 个模型中的 8 个模型上获得了超过 2 倍（最高达到 2.39 倍）的速度提升。此外，SoT 在不明显降低答案质量的情况下实现了这种速度的提升。💪

🌈SoT 的未来

SoT 通过独立并行地扩展点，因此并不适合需要逐步推理的问题，比如数学和编程。为此，我们提出了一种 SoT 的扩展，叫做 SoT with Router（SoT-R），它可以在适合的时候自适应地触发 SoT。我们提出了一个路由器模型，该模型可以基于问题和答案的骨架，预测何时应使用 SoT。实验显示，SoT- R 在数学和编程问题上的性能超过了原始的 SoT，并在所有测试集上达到了最好的性能。🎯

对于未来，我们期待通过进一步的研究和开发，将 SoT 的应用范围扩大到处理更复杂的问题，同时继续提高其生成速度和答案质量。我们相信，随着技术的不断发展，大语言模型将在我们的日常生活中扮演越来越重要的角色，为我们提供更加智能、快速和准确的服务。✨

在此，我要提醒大家，SoT 的代码和演示已经在 Github 上开源，欢迎感兴趣的朋友们去查阅和使用。🌐

以上就是今天播客的全部内容，希望大家对 SoT 有了更深入的理解。如果你有任何问题或者想法，欢迎在评论区留言。我们下期再见，祝大家每天都有新的收获！👋

正文完

发表至： AGI

2023-11-30

大规模Transformer模型推理优化

UIUC && 清华 | 提出Magicoder大模型：7B模型堪比ChatGPT和Gemini

AI助你笔下生辉光 – 助力创意写作的Weaver模型

Anima—开源的33B中文大型语言模型

Orca 2：推理技巧赋能小型语言模型，性能超越5-10倍大模型