解密大型语言模型的无尽流畅性：探索”注意力汇聚”现象

195次阅读

欢迎来到这个探索大型语言模型（LLMs）无尽流畅性的神奇旅程。在这篇文章中，我们将研究一种新的技术策略，即 ” 注意力汇聚 ”，它在 Hugging Face 的博客中被详细介绍。这种策略对于改进 LLMs，如所有 Llama、Mistral、MPT、Falcon 和 GPT-NeoX（Pythia）模型的性能有着重要的影响。现在，让我们一起揭开这个神秘现象的面纱！

LLMs 的局限性：VRAM 和流畅性问题

首先，我们需要理解 LLMs 在现实应用中面临的挑战。其中，最重要的两个问题是 VRAM 使用和流畅性的丧失。在聊天助手场景中，这意味着设备的 VRAM 限制将限制用户连续提问的能力。同时，所有至今为止训练过的 LLMs 在输入过长时都会遇到流畅性的丧失问题，这会导致模型生成的语言失去连贯性。

窗口注意力：一种尝试解决 VRAM 问题的方法

为了解决 VRAM 使用问题，我们可以尝试限制输入给 LLMs 的令牌数量，这就是 ” 窗口注意力 ” 的概念。然而，实验结果显示，这种方法并不能有效地解决问题。一旦生成的令牌数超过窗口大小，模型的复杂度会立即上升。

注意力汇聚：解决流畅性问题的新策略

好在，我们发现了一个新的解决策略：注意力汇聚。研究人员发现，在应用窗口注意力的过程中，LLMs 为生成下一个令牌分配了大量的注意力分数给前几个令牌，即便这些令牌在语义上并不重要。因此，当第一个令牌从窗口中移除时，模型无法将注意力分数装载到该令牌上，导致模型“崩溃”并丧失流畅性。

为了解决这个问题，研究人员提出了一种改良的窗口注意力方法，它始终保留序列中的初始 4 个令牌，即注意力汇聚令牌。

注意力汇聚的实践效果

实验数据显示，使用注意力汇聚的 LLMs 在空间复杂性和困惑度上都表现出了稳定性。此外，按照这种方式，可以无限生成文本而不会出现模型流畅性的丧失。

结论

总的来说，注意力汇聚为我们提供了一种新的解决 LLMs 问题的方法：通过保留注意力汇聚令牌，我们可以避免模型在生成过程中失去流畅性，并保持恒定的 VRAM 使用。这种方法对于改进聊天助手、虚拟助手等基于 LLMs 的应用具有重要的实践价值。

正文完

发表至： AGI

2023-11-02

ZEPHYR: 直接提取LM对齐

BLOOMChat: 开源可商用支持多语言的大语言模型，性能逼近GPT-4！

LayerSkip: 大型语言模型的高效推理解决方案

KwaiAgents：基于大型语言模型的通用信息检索代理系统

【深度揭秘】StreamingLLM：大型语言模型的“无限长”生成能力