PowerInfer:单个消费级GPU的高效推理引擎

220次阅读
没有评论

PowerInfer 提供了适用于个人计算机配备单个消费级 GPU 的高速大型语言模型(LLM)推理引擎。PowerInfer 的关键创新在于利用 LLM 推理中固有的高局部性,其特点是神经元激活呈幂律分布。

利用这一见解,PowerInfer 采用了 GPU-CPU 混合推理引擎,其中热激活的神经元预先加载到 GPU 上以实现快速访问,而冷激活的神经元则在 CPU 上计算,显著减少了 GPU 内存需求和 CPU-GPU 数据传输。此外,它集成了自适应预测器和神经元感知的稀疏运算符,优化了神经元激活和计算稀疏性的效率。

评估表明,PowerInfer 在单个 NVIDIA RTX 4090 GPU 上实现了 13.20 个标记 / 秒的平均标记生成速率,峰值达到 29.08 个标记 / 秒,仅比顶级服务器级 A100 GPU 低 18%。这种性能明显优于 llama.cpp,性能提高了高达 11.69 倍,同时保持了模型的准确性。

特点

  • 局部性设计: 利用稀疏激活和“热”/“冷”神经元概念进行高效的 LLM 推理,确保更高的速度和更低的资源需求。
  • 混合 CPU/GPU 利用: 无缝整合 CPU 和 GPU 的内存 / 计算能力,实现均衡的工作负载和更快的处理速度。
  • 易集成: 兼容流行的 ReLU 稀疏模型。
  • 本地部署便利: 专为在消费级硬件上本地部署进行了深度优化,实现了低延迟的 LLM 推理和在单个 GPU 上的服务。

入门指南

  • 安装: 指南以安装和设置 PowerInfer。
  • 模型权重: 有关使用模型权重和 PowerInfer GGUF 等特殊格式的信息。
  • 构建: 在 Linux 或 macOS 上使用 CMake 构建 PowerInfer 的说明。

推理

  • 提供了详细的说明,用于在 CPU 和 CPU-GPU 混合推理中运行 PowerInfer,包括限制 GPU 的 VRAM 使用情况。

量化

  • 针对 INT4(Q4_0)模型的优化量化支持,包括量化 PowerInfer GGUF 模型的说明。

论文和引用

PowerInfer 的更多技术细节可以在他们的论文中找到。如果您发现 PowerInfer 对您的项目和研究有用或相关,欢迎引用他们的论文。

致谢

PowerInfer 感谢 llama.cpp 等多个实体的支持和启发,THUNLP 对 ReLU 稀疏模型的支持,以及 Deja Vu 对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级 GPU 的个人计算机上进行高效的 LLM 推理和部署提供了一种有前景的方法。

正文完
 
评论(没有评论)