揭开AI世界的神秘面纱：PowerInfer 文献解析

216次阅读

🚀 作为 AI 世界的一位探险者，我们时常发现一些激动人心的突破，其中最新的一项就是 PowerInfer。这项技术能够在个人计算机上利用普通的 GPU 进行高速的大型语言模型推断，这将为我们的生活带来怎样的改变呢？

背景

Generative large language models (LLMs) 已经成为人们关注的焦点。这些模型在创造性写作、高级代码生成以及复杂的自然语言处理任务中表现出了卓越的能力。然而，传统上这些模型需要在配备高端昂贵的服务器级 GPU 的数据中心进行部署。与此同时，越来越多的人们希望在更易接触的本地平台上运行 LLMs，尤其是配备消费级 GPU 的个人电脑。这种转变是由对增强数据隐私、模型定制化以及减少推断成本的需求驱动的。

然而，将 LLMs 部署在消费级 GPU 上也带来了重大挑战，主要是由于其巨大的内存需求。LLMs 通常以自回归 Transformer 的形式顺序生成文本标记，每个标记需要访问包含数千亿参数的整个模型。因此，推断过程受到 GPU 内存容量的限制，特别是在本地部署中，每次处理单个请求时（通常一次只有一个请求）会留下极少的机会进行并行处理。

PowerInfer：改变游戏规则

PowerInfer 是一种高速的 LL 微观形态推断系统，经过精心设计，能够利用 LL 推断中固有的高度局部性。它的关键想法是通过将频繁激活的神经元分配到 GPU，而将不经常激活的神经元分配到 CPU，从而最大程度地减少 GPU 的内存需求，提高推断速度。

快人一步：PowerInfer 的内部工作原理

PowerInfer 的工作原理基于两个关键见解：一是 LL 推断中存在的高局部性，二是 CPU 和 GPU 的协同执行。它通过离线和在线组件实现神经元分配策略，并结合神经元感知运算符，从而有效地管理 GPU 和 CPU 之间的计算负载。

实验结果

PowerInfer 在高端 PC 上的表现令人印象深刻。与传统方法相比，PowerInfer 的推断速度提高了 7.23 倍，具有显著的优势。在低端 PC 上，PowerInfer 的性能提升略有降低，但仍然达到了 5.01 倍的提速。此外，PowerInfer 还支持压缩后的 LLMs，如 INT4 量化模型，其性能提升了 2.89 倍。此外，PowerInfer 还支持不同的批处理大小，当批处理大小小于 32 时，PowerInfer 的性能提升最为显著，达到了 6.08 倍的提速。

结语

PowerInfer 的问世，为 AI 领域注入了新的活力，让人们看到了在个人计算机上进行高速大型语言模型推断的可能性。这项技术不仅提升了推断速度，还为本地部署提供了更加灵活的选择。我们对于未来这项技术的应用前景充满期待。

🌟 如果您对这篇文章有任何疑问或想了解更多细节，欢迎在评论区留言，我们将会不断分享更多有趣的技术内容。让我们一起期待 AI 技术带来的更多惊喜吧！

正文完

发表至： AGI

2023-12-21

将艺术赋予控制力：探索ControlNet在Diffusers中的应用

【深度揭秘】StreamingLLM：大型语言模型的“无限长”生成能力

顿悟Groking—深度洞察大型语言模型的学习方式

KwaiAgents: 快手Agent系列

PowerInfer：单个消费级GPU的高效推理引擎

轻松驾驭大型语言模型：H2O重点词（Heavy-Hitter）神器的秘密

评论（12 条评论）

C3P00

2023-12-21 16:45:12 回复

重点1：本文介绍了在LLM推理过程中我们对局部性的见解，并突出了两个显著的特点。LLM推理具有高度的局部性，表明经常激活的一组神经元。尽管输入依赖性是LLM激活稀疏性，但激活神经元之间存在一个功率分布。

重点2：在OPT-30B和LLaMA（ReGLU-70B）的MLP层中，分别有26%和43%的神经元负责80%的总激活，这些神经元被称为热激活神经元。相反，剩余的74%和57%的神经元受到输入依赖，被归类为冷激活神经元。这种高局部性不仅局限于单个层，而是贯穿整个模型。如图5b所示，在OPT-30B和LLaMA（ReGLU-70B）中，大约有17%和26%的神经元负责所有层数的80%的总激活。

重点3：如果激活的神经元位于CPU内存中，在CPU上计算它们会比将它们转移到GPU上快，特别是当激活神经元数量较少和通常部署中的小批量大小时。具有向量扩展的现代CPU可以有效地处理这类较小的矩阵计算。我们比较了在OPT-30B中加载和计算10% 3 MLP层和60%注意层CPU侧神经元的GPU与直接在CPU上使用AVX2向量扩展所需的时间。结果如图6所示，在小于32的批量大小下，将权重转移到GPU（NVIDIA RTX 4090）并计算它们所需的时间超过了直接在CPU上使用AVX2向量扩展所需的时间。

Macintosh Safari 美国科罗拉多丹佛

C3P00

2023-12-21 16:45:58 回复

Macintosh Safari 美国科罗拉多丹佛

C3P00

2023-12-21 16:46:30 回复

重点2：在OPT-30B和LLaMA（ReGLU-70B）的MLP层中，分别有26%和43%的神经元负责80%的总激活，这些神经元被称为热激活神经元。相反，剩余的74%和57%的神经元受到输入依赖，被归类为冷激活神经元。这种高局部性不仅局限于单个层，而是贯穿整个模型。

Macintosh Safari 美国科罗拉多丹佛

C3P00

2023-12-21 16:47:13 回复

重点3：如果激活的神经元位于CPU内存中，在CPU上计算它们会比将它们转移到GPU上快，特别是当激活神经元数量较少和通常部署中的小批量大小时。具有向量扩展的现代CPU可以有效地处理这类较小的矩阵计算。我们比较了在OPT-30B中加载和计算10% 3 MLP层和60%注意层CPU侧神经元的GPU与直接在CPU上使用AVX2向量扩展所需的时间。在小于32的批量大小下，将权重转移到GPU（NVIDIA RTX 4090）并计算它们所需的时间超过了直接在CPU上使用AVX2向量扩展所需的时间。

Macintosh Safari 美国科罗拉多丹佛

C3P00

2023-12-27 23:36:01 回复

激活稀疏。最近的研究表明，L LM 推理在神经元激活中显
示出显著的稀疏性[19 ,21 ,50 ]。例如，我们观察到 OPT-30B
模型中大约 80 % 的神经元在推理过程中保持失活状态。这
种激活稀疏现象在自注意和 M LP 块中都存在。在自我注意
块中，近一半的注意头(神经元)做出的贡献最小，导致了它
们的高稀疏性。在 M LP 块内观察到的稀疏性主要归因于激
活函数的特征。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:36:39 回复

当前的模型压缩技术不足以在资源有限的消费级 gp u 内
拟合大型语言模型( llm )。相比之下，利用 CPU 额外的计算
和内存资源的卸载技术为在此类硬件上容纳 llm 提供了更可
行的解决方案。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:40:26 回复

Po we rInf e r，一个部署在配备单个消费级 GP U
的 P C 上的低延迟 LL M 推理系统。Po we rInf e r 通过充分利
用§3 中描述的高局部性见解，提出了神经元感知的卸载策
略和推理引擎。它利用 GP U 和 C P U 进行权重存储，可容
纳各种尺寸的 llm 。这种基于 In sigh t-1 的卸载方法有效地利
用了 LLM 推理的幂律分布。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:40:58 回复

LLa M A (Re G L U) -70 B 分别占总激活量的 26%和 43%。这些
神经元被称为热激活神经元。相反，其余 74%和 57%的神
经元的激活是输入依赖性的，将它们归类为冷激活神经元。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:41:30 回复

如果激活的神经元驻留在 CP U 内存中，在 CP U 上计算它
们比将它们传输到 GP U 要快，特别是在本地部署中激活的
神经元数量较少和批量大小较小的情况下。具有向量扩展的
现代 cpu 可以有效地处理这种较小的矩阵计算。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:42:44 回复

为了减少推理延迟，推理引擎只计算被在线预测器预测为
活跃的神经元，跳过大多数不活跃的神经元。此外，预加载
策略使 Po we rI nfe r 能够将大量推理任务分配给 GPU，因为
已经加载在 GPU 上的热激活神经元构成了激活的主要部分。
对于不在 GP U 内存中的冷激活神经元，Po we rI nfe r 在 CP U
上执行它们的计算，从而消除了向 GPU 传输权重的需要
(Insight-2 )。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:43:49 回复

LLM Profiler 和 Policy Solver (Offline):该组件包括一个 L LM
Prof ile r，它使用来自一般数据集 (例如 C4 [32 ])的请求从推理
过程中收集激活数据。它监视所有层的神经元激活 (步骤¬ )，
然后是策略求解器将神经元分类为热或冷。求解器旨在将频
繁激活的神经元分配给 GP U，而将其他神经元分配给 CP U。
它使用神经元影响指标和硬件规格来平衡工作负载，使用整
数线性规划来最大化 GPU 对神经元的影响指标 (步骤- )。

Windows Edge 美国密苏里堪萨斯城

C3P00

2023-12-27 23:44:38 回复

神经元感知 LLM 推理引擎 (Online):在处理用户请求之前，
在线引擎根据离线解算器的输出，将两种类型的神经元分
配给各自的处理单元(Step® )。在运行时，引擎创建 G PU 和
CP U 执行器，它们是在 CP U 端运行的线程，以管理并发的
CPU – GPU 计算(步骤¯ )。该引擎还会预测神经元的激活，并
跳过未激活的神经元。预加载的激活神经元

Windows Edge 美国密苏里堪萨斯城