PowerInfer：单个消费级GPU的高效推理引擎

PowerInfer 提供了适用于个人计算机配备单个消费级GPU的高速大型语言模型（LLM）推理引擎。PowerInfer的关键创新在于利用LLM推理中固有的高局部性，其特点是神经元激活呈幂律分布。

利用这一见解，PowerInfer采用了GPU-CPU混合推理引擎，其中热激活的神经元预先加载到GPU上以实现快速访问，而冷激活的神经元则在CPU上计算，显著减少了GPU内存需求和CPU-GPU数据传输。此外，它集成了自适应预测器和神经元感知的稀疏运算符，优化了神经元激活和计算稀疏性的效率。

评估表明，PowerInfer在单个NVIDIA RTX 4090 GPU上实现了13.20个标记/秒的平均标记生成速率，峰值达到29.08个标记/秒，仅比顶级服务器级A100 GPU低18％。这种性能明显优于llama.cpp，性能提高了高达11.69倍，同时保持了模型的准确性。

PowerInfer的更多技术细节可以在他们的论文中找到。如果您发现PowerInfer对您的项目和研究有用或相关，欢迎引用他们的论文。

PowerInfer感谢llama.cpp等多个实体的支持和启发，THUNLP对ReLU稀疏模型的支持，以及Deja Vu对他们工作的启发。这种高速的大型语言模型服务解决方案为在配备消费级GPU的个人计算机上进行高效的LLM推理和部署提供了一种有前景的方法。