大型语言模型的无限对话：StreamingLLM 如何实现高效流式解码

大型语言模型（LLM）已经成为自然语言处理领域不可或缺的一部分，但它们在处理长文本时却面临着巨大的挑战。传统的 LLM 在解码过程中需要缓存所有先前解码的 token 的键值对（KV），这会导致内存占用量随着对话长度的增加而线性增长，并且模型的性能也会受到限制。

StreamingLLM 应运而生，它是一种高效的框架，可以使 LLM 在不进行任何微调的情况下，将有限长度的注意力窗口推广到无限序列长度，从而实现高效的流式解码。

为了解决传统 LLM 解码过程中的内存占用和性能下降问题，研究人员提出了窗口注意力机制，它只缓存最近的 KV，从而减少了内存占用。然而，当文本长度超过缓存大小时，窗口注意力机制就会失效。

StreamingLLM 的核心思想是利用注意力汇聚（Attention Sink）现象。研究人员发现，即使一些初始 token 在语义上并不重要，但模型仍然会对它们保持很强的注意力。这种现象被称为注意力汇聚。

通过分析 LLM 在处理长文本时的注意力机制，研究人员发现了一个有趣的现象：模型会将大量的注意力集中在初始 token 上，即使这些 token 在语义上并不重要。他们将这种现象称为“注意力汇聚”。

为什么会出现注意力汇聚？ 这是因为 Softmax 函数的特性，它要求所有上下文 token 的注意力分数之和为 1。即使当前查询在许多之前的 token 中没有强匹配，模型仍然需要将这些不必要的注意力值分配到某个地方，以使它们加起来为 1。

初始 token 成为注意力汇聚的原因也很直观： 由于自回归语言模型的特性，初始 token 对所有后续 token 都可见，而后续 token 只能对有限的后续 token 可见。因此，初始 token 更容易被训练成注意力汇聚，从而捕获不必要的注意力。

StreamingLLM 框架基于以下几个关键原则：

研究人员对多个流行的 LLM 家族（包括 Llama-2、MPT、Falcon 和 Pythia）进行了实验，结果表明：

StreamingLLM 在许多场景中都有广泛的应用，例如：

StreamingLLM 的出现为 LLM 的流式应用开辟了新的可能性。未来，研究人员将继续探索如何进一步优化 StreamingLLM 框架，使其在更多场景中发挥更大的作用。