在人工智能的浩瀚星空中,大型语言模型(LLMs)无疑是近年来最耀眼的明星之一。它们凭借强大的自然语言理解和生成能力,在各个领域掀起了一场智能革命。然而,正如每一枚硬币都有两面,LLMs 的强大也伴随着“甜蜜的烦恼”——巨大的模型体积和高昂的推理成本,这使得它们在资源受限的设备(如手机、边缘计算设备)上的部署变得举步维维艰。
在这场与模型“体重”的较量中,一位名为 RWKV(Receptance Weighted Key Value)的新星冉冉升起 [1][2]。它巧妙地融合了循环神经网络(RNN)的推理效率和 Transformer 模型的强大性能,展现出在语言和视觉任务中与主流 T-LLMs(Transformer-based Large Language Models)相媲美的潜力 [1][3]。RWKV 就像一位轻功了得的武林高手,试图在保持高强武艺的同时,身形依旧轻盈。
然而,即便是这位“轻功高手”,在面对日益增长的模型参数时,也感到了压力。例如,RWKV-6-14B 模型需要大约 30GB 的内存才能加载,这对于大多数边缘设备来说依然是难以承受之重。更关键的是,RWKV 的计算与内存访问比率(FLOPs/Bytes)相对较低,例如 RWKV-6-7B 仅为 0.97,而 LLaMA-2-7B 的解码阶段则高达 4.88。这意味着 RWKV 的运行在很大程度上受限于内存访问速度,因此,压缩模型权重以减少内存占用和加速推理显得尤为重要。
于是,模型量化这位“压缩师”应运而生。训练后量化(Post Training Quantization, PTQ)作为一种主流的模型压缩技术,通过将模型中高精度的浮点数参数转换为低比特整数,从而达到缩小模型尺寸、降低推理延迟的目的 [4][5]。PTQ 主要分为两大流派:标量量化(Scalar Quantization, SQ)和向量量化(Vector Quantization, VQ) [4][5]。SQ 将单个数值映射到量化范围,而 VQ 则将一组向量量化到一个有限的码本子集中 [4][5]。
当人们兴致勃勃地尝试将这些在 T-LLMs 上屡试不爽的 PTQ 方法直接应用于 RWKV 时,却意外地发现,这位“压缩师”似乎有些“水土不服”。
传统量化方法的“水土不服”
直接将最先进的量化框架应用于 RWKV 模型,往往会导致严重的性能下降。例如,将属于 SQ 流派的 QuaRot 应用于 RWKV-7 系列模型,会使整体浮点运算量(FLOPs)增加超过 99%;而将属于 VQ 流派的 VPTQ 应用于 RWKV-6-7B 模型,则会导致超过 16% 的精度损失。这不禁让人疑惑,为何这些在 T-LLMs 上大放异彩的量化方法,到了 RWKV 这里就“失灵”了呢?
深入探究后,我们发现 RWKV 自身独特的“体质”是导致这一现象的两个关键原因:
🕵️♂️ 非线性算子的“拦路虎”
许多先进的 SQ 方法,如基于平滑(smooth-based)或旋转(rotation-based)的量化技术,通常会引入一些额外的参数(如平滑向量、正交矩阵)。在 T-LLMs 中,这些参数可以巧妙地“融入”到相邻的归一化层和线性层中,从而避免额外的计算开销。然而,RWKV 的结构中,在其参数融合路径上存在一些“拦路虎”——非线性算子,例如 token-shift、Sigmoid 函数和指数函数(见图 2)。这些非线性模块会阻断参数的线性融合过程,不可避免地导致额外的运行时开销。这就好比在一条原本通畅的河流中设置了几个水坝,使得水流(参数融合)受阻。
📉 均匀分布权重的“聚类噩梦”
另一方面,基于聚类的 VQ 方法更喜欢那些分布具有明显类别特征的数据,这样更容易将数据点划分到不同的簇中。然而,与 T-LLMs 相比,RWKV 的权重往往呈现出更均匀的分布(详见论文第 4.4 节和表 1)。这种均匀性使得聚类过程变得更加困难,好比在一堆颜色相近的豆子中进行分类,自然难以获得理想的效果,从而导致精度下降。
表 1: RWKV 和 LLaMA 家族权重的平均相对聚类损失,通过 KMeans 计算。
家族 | 模型 | 8 簇 | 16 簇 |
---|---|---|---|
RWKV | 6-7B | 2.01 | 0.78 |
6-14B | 1.98 | 0.78 | |
LLaMA | 2-7B | 0.96 | 0.65 |
2-14B | 0.89 | 0.64 | |
(数据来源:参考文献) |
面对这样的困境,难道 RWKV 就注定与高效量化无缘了吗?当然不!正所谓“道高一尺,魔高一丈”,针对 RWKV 的这些特性,研究者们提出了一种量身定制的 PTQ 框架——RWKVQuant。
RWKVQuant 横空出世:量身定制的解决方案
RWKVQuant 的核心思想是扬长避短,它认识到对于均匀分布的权重,经典的基于补偿的 SQ 方法(如 GPTQ)其实更为合适。因此,RWKVQuant 巧妙地提出了一种混合策略:通过部分应用 SQ 来增强 VQ 的性能。而实现这一策略的关键,在于一个新颖的“粗细结合的代理(coarse-to-fine proxy)”机制,以及针对 RWKV 独特的逐元素乘法(element-wise multiplication)的码本优化。
实战演练:RWKVQuant 的“亮剑”时刻
理论的精妙最终需要实践的检验。RWKVQuant 在多种 RWKV 模型家族(包括 RWKV-6、RWKV-7 和视觉模型 VRWKV)以及多种任务(语言理解、图像分类、目标检测、图像分割)上进行了广泛的实验。
📊 语言与视觉任务双开花
语言任务: 如表 2 所示,在语言任务上,RWKVQuant 在几乎所有模型上都一致优于其他基线方法(包括 RTN、GPTQ、AWQ、QuaRot、KMeans、GPTVQ、VPTQ)。与 bpw(bits per weight,每个权重的平均比特数)为 3.25 的方法相比,RWKVQuant 在零样本任务的困惑度(PPL)和准确率上都有显著提升。与 bpw 为 3.5 的方法相比,RWKVQuant 始终能实现更低的 PPL。特别是在较小的 0.1B 模型上,其他方法的 PPL 至少增加 10 个点,而 RWKVQuant 仅增加 4.2 个点。在较大的 RWKV6-7B 和 RWKV7-14B 模型上,PPL 几乎没有增加,准确率下降不到 1 个点。这充分证明了 RWKVQuant 在低比特量化下的优越性能。
表 2: LAMBADA 数据集上的困惑度(越低越好)和九个零样本任务的平均准确率(越高越好)比较。RWKVQuant (Ours) 的 bpw 为 3.275。
(由于表格过长,此处仅展示 RWKV6-14B 的部分对比,完整数据请参见原论文)
模型 | Bpw. | 方法 | 零样本9 Avg.(↑) | Lambada (↓) |
---|---|---|---|---|
RWKV6-14B | 16 | FloatingPoint | 63.65 | 3.02 |
3.25 | RTN | 61.16 | 3.34 | |
GPTQ | 60.18 | 3.43 | ||
GPTVQ | 59.63 | 3.15 | ||
3.5 | RTN | 60.84 | 3.31 | |
GPTQ | 61.14 | 3.29 | ||
GPTVQ | 59.76 | 3.34 | ||
3.275 | Ours | 62.69 | 2.89 | |
(数据来源:参考文献 表 2) |
视觉任务: 如表 3 所示,在视觉任务中,RWKVQuant 在分割和分类任务上均取得了最高分。在检测任务中,虽然 RWKV-S 的精度不是最高的,但也非常接近最佳性能方法。
表 3: 视觉 RWKV 模型在不同量化设置下的比较结果。
Bpw. | 方法 | RWKV-T (Cls./Det./Seg.) | RWKV-S (Cls./Det./Seg.) |
---|---|---|---|
16 | FloatingPoint | 75.10 / 41.70 / 43.3 | 80.10 / 44.8 / 47.2 |
3.5 | GPTQ | 69.74 / 39.85 / 41.20 | 78.30 / 43.37 / 45.50 |
AWQ | 68.50 / 39.03 / 38.88 | 78.00 / 42.90 / 42.88 | |
GPTVQ | 70.31 / 40.14 / 41.65 | 78.65 / 44.03 / 45.00 | |
VPTQ | 67.21 / 39.02 / 40.14 | 76.40 / 42.01 / 43.54 | |
3.275 | Ours | 70.41 / 40.22 / 41.70 | 78.74 / 43.95 / 46.09 |
(数据来源:参考文献 表 3) |
从图 1 的准确率-模型大小曲线也可以直观地看到,RWKVQuant 在所有模型尺寸上均优于单独使用 SQ 或 VQ 的方法。
🚀 速度与激情:内存与效率的双重奏
RWKVQuant 不仅精度高,在效率提升方面也表现出色。如表 4 所示,对 RWKV6 模型进行 3.275-bpw 量化后,内存占用显著降低,推理速度大幅提升。例如,RWKV-6-14B 模型在量化后,内存占用减少了 2.83 倍,推理速度提升了 2.14 倍,而准确率损失不到 1%。这使得在资源受限设备上部署大型 RWKV 模型成为可能。
表 4: RWKV6 模型在 3.275-bpw 量化前后的生成速度和内存使用比较(NVIDIA A6000 GPU)。
模型大小 | 速度 (tokens/sec) FP | 速度 (tokens/sec) Quantized | 加速比 | 内存 (GB) FP | 内存 (GB) Quantized | 内存节省比 |
---|---|---|---|---|---|---|
3B | 32.95 | 51.29 | 1.55x | 5.88 | 1.65 | 3.56x |
7B | 30.75 | 62.42 | 2.03x | 13.91 | 4.25 | 3.27x |
14B | 16.02 | 34.32 | 2.14x | 26.07 | 9.21 | 2.83x |
(数据来源:参考文献 表 4) |
🔬 庖丁解牛:消融研究探真知
为了验证 RWKVQuant 中各个组件的有效性,研究者们进行了一系列消融实验。
- 混合量化的威力: 表 5 显示,采用 RWKVQuant 提出的混合 GPTQ 和 GPTVQ 的策略(bpw 3.275),在几乎所有 RWKV 模型上都比单独使用 GPTQ(bpw 3.5)或 GPTVQ(bpw 3.5)取得了更好的指标。这证明了混合策略的优越性。
- 代理策略的智慧: 表 6 比较了不同的代理策略(如方差、变异系数、范围、平均绝对偏差、均方误差、信息熵)用于指导混合量化。结果表明,RWKVQuant 提出的粗细结合代理策略(Ours)从全局角度看,在所有三个模型上都取得了最佳效果,优于仅基于局部最优(如 MSE)的策略。
- 码本优化的贡献: 表 7 的结果清晰地显示,针对逐元素乘法算子进行码本优化后,所有模型的准确率都得到了提升。这证实了为 RWKV 特定结构进行定制化优化的必要性和有效性。
🧐 RWKV 的“均匀”之谜再探
为了进一步证实 RWKV 权重分布更均匀的观点,研究者利用提出的粗细结合代理对 RWKV 和 LLaMA 家族模型进行了分析。在设定的阈值下(τc=1.5,τf=50\tau_c = 1.5, \tau_f = 50τc=1.5,τf=50),如图 5 所示,RWKV 家族中约有 60% 的层被分类为适合标量量化,而 LLaMA 家族中这一比例仅为约 10%。这有力地支持了 RWKV 模型具有更多均匀分布权重的结论。
论文附录中的图 6、图 7 和图 8 也直观展示了 RWKV7-0.1B 模型中不同层权重的分布情况,有的均匀无异常值(适合 SQ),有的不均匀(适合 VQ),还有的整体均匀但有局部异常(也适合 VQ),这进一步印证了粗细结合代理策略的合理性。
结语:开启 RWKV 高效部署的新篇章
RWKVQuant 的提出,无疑为 RWKV 模型家族在资源受限环境下的部署打开了一扇新的大门。它通过深入分析 RWKV 的特性,创造性地设计了粗细结合的代理来指导标量量化和向量量化的混合使用,并针对性地优化了逐元素乘法的码本生成。实验结果充分证明了 RWKVQuant 在精度和效率上的双重优势,能够将 RWKV 模型压缩至约 3 比特,同时保持极低的精度损失,并带来显著的推理加速和内存节省。
这项开创性的研究不仅为 RWKV 模型的实际应用铺平了道路,也为其他具有相似特性的新兴模型架构的量化提供了宝贵的思路。正如作者所言,他们将公开代码,以期促进该领域的进一步研究和发展。我们有理由相信,在 RWKVQuant 这样的“精明压缩师”的助力下,RWKV 这位“铁头 RNN”将能更轻盈、更高效地驰骋在人工智能的广阔天地中。
参考文献 (示例格式,根据原文补充):
- Peng, B. , et al. (2023). RWKV: Reinventing RNNs for the Transformer Era. ✅arXiv preprint arXiv:2305.13048.
- Peng, B. , et al. (2024). RWKV-v5: A Resource-efficient Foundation Model. ✅Technical Report.
- Xu, C. , Yue, Y., Xu, Z., Hu, X., Yu, J., Chen, Z., Zhou, S., Yuan, Z., & Yang, D. (2025). RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization. ✅Proceedings of the 41st International Conference on Machine Learning (ICML). (本文主要参考)
- Frantar, E. , et al. (2022). GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. ✅arXiv preprint arXiv:2210.17323.
- Lin, J. , et al. (2023). AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. ✅arXiv preprint arXiv:2306.00978.
(请注意:上述参考文献列表为根据文章内容和常见引用习惯进行的示例扩充,实际应以原论文末尾的参考文献为准。由于原始 PDF 中未直接提供完整的参考文献列表详情,此处仅作格式演示。)
Learn more:
- Introducing RWKV – An RNN with the advantages of a transformer – Hugging Face
- LiteratureReviewLiterature ReviewLiteratureReview A Survey of RWKV – Moonlight
- A Survey of RWKV – arXiv
- QTIP: Quantization with Trellises and Incoherence Processing – NIPS papers
- QTIP: Quantization with Trellises and Incoherence Processing – arXiv
- Fast Elementwise Matrix-Multiplications – MATLAB Answers – MathWorks
- Product, Matrix Multiply – MathWorks