PowerInfer：单个消费级GPU的高效推理引擎

220次阅读

PowerInfer 提供了适用于个人计算机配备单个消费级 GPU 的高速大型语言模型（LLM）推理引擎。PowerInfer 的关键创新在于利用 LLM 推理中固有的高局部性，其特点是神经元激活呈幂律分布。

利用这一见解，PowerInfer 采用了 GPU-CPU 混合推理引擎，其中热激活的神经元预先加载到 GPU 上以实现快速访问，而冷激活的神经元则在 CPU 上计算，显著减少了 GPU 内存需求和 CPU-GPU 数据传输。此外，它集成了自适应预测器和神经元感知的稀疏运算符，优化了神经元激活和计算稀疏性的效率。

评估表明，PowerInfer 在单个 NVIDIA RTX 4090 GPU 上实现了 13.20 个标记 / 秒的平均标记生成速率，峰值达到 29.08 个标记 / 秒，仅比顶级服务器级 A100 GPU 低 18%。这种性能明显优于 llama.cpp，性能提高了高达 11.69 倍，同时保持了模型的准确性。

特点

局部性设计： 利用稀疏激活和“热”/“冷”神经元概念进行高效的 LLM 推理，确保更高的速度和更低的资源需求。
混合 CPU/GPU 利用： 无缝整合 CPU 和 GPU 的内存 / 计算能力，实现均衡的工作负载和更快的处理速度。
易集成： 兼容流行的 ReLU 稀疏模型。
本地部署便利： 专为在消费级硬件上本地部署进行了深度优化，实现了低延迟的 LLM 推理和在单个 GPU 上的服务。

入门指南

安装： 指南以安装和设置 PowerInfer。
模型权重： 有关使用模型权重和 PowerInfer GGUF 等特殊格式的信息。
构建： 在 Linux 或 macOS 上使用 CMake 构建 PowerInfer 的说明。

推理

提供了详细的说明，用于在 CPU 和 CPU-GPU 混合推理中运行 PowerInfer，包括限制 GPU 的 VRAM 使用情况。

量化

针对 INT4（Q4_0）模型的优化量化支持，包括量化 PowerInfer GGUF 模型的说明。

论文和引用

PowerInfer 的更多技术细节可以在他们的论文中找到。如果您发现 PowerInfer 对您的项目和研究有用或相关，欢迎引用他们的论文。

致谢

PowerInfer 感谢 llama.cpp 等多个实体的支持和启发，THUNLP 对 ReLU 稀疏模型的支持，以及 Deja Vu 对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级 GPU 的个人计算机上进行高效的 LLM 推理和部署提供了一种有前景的方法。

正文完

发表至： AGI

2023-12-21

解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

chatGPT对软件技术栈的冲击将逐渐显现

探索多语言的人工智能之旅：RWKV-5 World

Empowering Few-Shot Recommender Systems with Large Language Models — Enhanced Representations

图生文BLIP-2：图生文大语言图像预训练引导