大模型推理加速新突破：FlashDecoding++

大型语言模型 (LLM) 正在改变世界，从生成文本到翻译语言，再到编写代码，LLM 的应用范围越来越广。然而，LLM 的推理速度一直是制约其应用的关键因素。为了解决这个问题，研究人员一直在探索各种方法来加速 LLM 推理。

本文将介绍一篇名为「FlashDecoding++: Faster Large Language Model Inference on GPUs」的论文，该论文提出了一种新的 LLM 推理加速技术，可以在 GPU 上显著提高推理速度。

LLM 推理加速的挑战

加速 LLM 推理面临着三大挑战：

同步部分 Softmax 更新： Softmax 操作需要对每个部分 Softmax 结果进行同步更新，这导致了 LLM 中注意力计算的约 20% 的开销。
扁平 GEMM 的计算利用率低下： LLM 推理中执行 GEMM 的矩阵形状是扁平的，导致计算利用率低下，在之前的设计中，填充零后会导致超过 50% 的性能损失。
静态数据流导致的性能损失： LLM 中的内核性能取决于不同的输入数据特征、硬件配置等。单一且静态的数据流会导致 LLM 推理中不同形状的 GEMM 出现 50.25% 的性能损失。

FlashDecoding++ 的解决方案

FlashDecoding++ 针对上述挑战提出了以下解决方案：

异步 Softmax 与统一最大值： FlashDecoding++ 引入了一种统一最大值技术，用于不同的部分 Softmax 计算，从而避免同步。
双缓冲的扁平 GEMM 优化： FlashDecoding++ 指出不同形状的扁平 GEMM 面临着不同的瓶颈。然后，引入了双缓冲等技术。
硬件资源自适应的启发式数据流： FlashDecoding++ 使用不同的硬件资源，考虑输入动态，启发式地优化数据流。

性能提升

FlashDecoding++ 的优化策略使其在 NVIDIA 和 AMD GPU 上都取得了显著的性能提升，与 Hugging Face 实现相比，分别实现了高达 4.86 倍和 2.18 倍的加速。与主流 LLM 上最先进的 LLM 推理引擎相比，FlashDecoding++ 的平均加速比为 1.37 倍。

总结

FlashDecoding++ 提出了一套全面的 LLM 推理加速解决方案，有效地解决了 LLM 推理中的三大挑战。其在主流 LLM 和硬件平台上的出色表现，为 LLM 的广泛应用提供了强有力的支持。

参考文献

[2311.01282] FlashDecoding++: Faster Large Language Model Inference on GPUs
Stanford CRFM
GitHub – opengear-project/GEAR: GEAR: An Efficient KV Cache Compression Recipefor Near-Lossless Generative Inference of LLM
DistServe/distserve at main · LLMServe/DistServe · GitHub

注：本文仅对 FlashDecoding++ 论文进行了简要介绍，更多细节请参考原文。

在GPU上推理大规模语言模型（LLM）的性能至关重要，而FlashDecoding++是一款针对LLM推理的快速引擎，通过解决同步部分softmax更新、未充分利用的扁平化GEMM计算和静态数据流等挑战，实现了显着的推理加速效果。

解决同步部分softmax更新的挑战：
FlashDecoding++引入了异步softmax和统一最大值的技术，避免了在计算部分softmax结果时需要同步更新的问题。每个部分softmax结果可以独立进行处理，无需进行同步操作，从而减少了计算中的开销。

解决未充分利用的扁平化GEMM计算的挑战：
FlashDecoding++通过双缓冲技术对扁平化GEMM计算进行了优化，隐藏了内存访问延迟，提高了计算利用率。它在共享内存中分配了两个独立的缓冲区，一个缓冲区用于进行GEMM计算，而另一个缓冲区则用于加载下一个GEMM操作所需的数据。通过这种方式，计算和内存访问可以同时进行，实现了计算与存储的重叠。

解决静态数据流的挑战：
FlashDecoding++采用了启发式数据流和硬件资源适应的方法。它根据输入动态和硬件配置，在不同的线性工作负载下动态优化数据流，选择最佳的实现方式。通过根据不同工作负载的特点进行灵活调整，FlashDecoding++实现了最佳的推理性能。

性能评估：
FlashDecoding++在多个硬件平台上进行了性能评估，包括NVIDIA和AMD的GPU。与Hugging Face、vLLM、DeepSpeed、TensorRT-LLM、OpenPPL和FlashDecoding等LLM推理引擎进行了比较。结果表明，FlashDecoding++相对于这些基线引擎实现了显着的加速效果，提供了高达4.86倍的推理速度提升。

LLM 推理加速的挑战

FlashDecoding++ 的解决方案

性能提升

总结

参考文献

发表评论 取消回复

发表评论取消回复