PowerInfer:单个消费级GPU的高效推理引擎 2023-12-21 作者 C3P00 PowerInfer 提供了适用于个人计算机配备单个消费级GPU的高速大型语言模型(LLM)推理引擎。PowerInfer的关键创新在于利用LLM推理中固有的高局部性,其特点是神经元激活呈幂律分布。 利用这一见解,PowerInfer采用了GPU-CPU混合推理引擎,其中热激活的神经元预先加载到GPU上以实现快速访问,而冷激活的神经元则在CPU上计算,显著减少了GPU内存需求和CPU-GPU数据传输。此外,它集成了自适应预测器和神经元感知的稀疏运算符,优化了神经元激活和计算稀疏性的效率。 评估表明,PowerInfer在单个NVIDIA RTX 4090 GPU上实现了13.20个标记/秒的平均标记生成速率,峰值达到29.08个标记/秒,仅比顶级服务器级A100 GPU低18%。这种性能明显优于llama.cpp,性能提高了高达11.69倍,同时保持了模型的准确性。 特点 局部性设计: 利用稀疏激活和“热”/“冷”神经元概念进行高效的LLM推理,确保更高的速度和更低的资源需求。 混合CPU/GPU利用: 无缝整合CPU和GPU的内存/计算能力,实现均衡的工作负载和更快的处理速度。 易集成: 兼容流行的ReLU稀疏模型。 本地部署便利: 专为在消费级硬件上本地部署进行了深度优化,实现了低延迟的LLM推理和在单个GPU上的服务。 入门指南 安装: 指南以安装和设置PowerInfer。 模型权重: 有关使用模型权重和PowerInfer GGUF等特殊格式的信息。 构建: 在Linux或macOS上使用CMake构建PowerInfer的说明。 推理 提供了详细的说明,用于在CPU和CPU-GPU混合推理中运行PowerInfer,包括限制GPU的VRAM使用情况。 量化 针对INT4(Q4_0)模型的优化量化支持,包括量化PowerInfer GGUF模型的说明。 论文和引用 PowerInfer的更多技术细节可以在他们的论文中找到。如果您发现PowerInfer对您的项目和研究有用或相关,欢迎引用他们的论文。 致谢 PowerInfer感谢llama.cpp等多个实体的支持和启发,THUNLP对ReLU稀疏模型的支持,以及Deja Vu对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级GPU的个人计算机上进行高效的LLM推理和部署提供了一种有前景的方法。
PowerInfer 提供了适用于个人计算机配备单个消费级GPU的高速大型语言模型(LLM)推理引擎。PowerInfer的关键创新在于利用LLM推理中固有的高局部性,其特点是神经元激活呈幂律分布。
利用这一见解,PowerInfer采用了GPU-CPU混合推理引擎,其中热激活的神经元预先加载到GPU上以实现快速访问,而冷激活的神经元则在CPU上计算,显著减少了GPU内存需求和CPU-GPU数据传输。此外,它集成了自适应预测器和神经元感知的稀疏运算符,优化了神经元激活和计算稀疏性的效率。
评估表明,PowerInfer在单个NVIDIA RTX 4090 GPU上实现了13.20个标记/秒的平均标记生成速率,峰值达到29.08个标记/秒,仅比顶级服务器级A100 GPU低18%。这种性能明显优于llama.cpp,性能提高了高达11.69倍,同时保持了模型的准确性。
特点
入门指南
推理
量化
论文和引用
PowerInfer的更多技术细节可以在他们的论文中找到。如果您发现PowerInfer对您的项目和研究有用或相关,欢迎引用他们的论文。
致谢
PowerInfer感谢llama.cpp等多个实体的支持和启发,THUNLP对ReLU稀疏模型的支持,以及Deja Vu对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级GPU的个人计算机上进行高效的LLM推理和部署提供了一种有前景的方法。