原文依据: 「information of the segments between these separator tokens can be effectively condensed into the separator tokens themselves without significant information loss.」(出自:2412.12094v6.pdf,第1页)
原文依据: 「using the Lame 3-8B backbone, SepLLM achieves over $50\%$ reduction in KV cache on the GSMMK-COT benchmark while maintaining comparabl…」(出自:2412.12094v6.pdf,第1页)
解析: SepLLM显著降低KV缓存使用,同时保持性能相当。
知识点: SepLLM的适用设置 题目: SepLLM框架在哪些设置下被证明有效? 选项:
A. 仅训练阶段✅
B. 仅推理阶段✅
C. 无训练、从头训练和后训练设置✅
D. 仅后训练阶段✅
正确答案: C
原文依据: 「Experimental results across trainingfree, training-from search, and post-training, setting demonstrate. SepLLM’s effectiveness.」(出自:2412.12094v6.pdf,第1页)
原文依据: 「BigBird (Zaheer et al., 2020) proposes a linear-complexity attention alternative using global tokens, local sliding-window attention, and random attention.」(出自:2412.12094v6.pdf,第2页)
原文依据: 「StreamgL.M (Xiao et al., 2024b) expands L. Ms’ capabilities to handle infinite sequence lengths without fine-tuning, by reserving attention sinks and local tokens.」(出自:2412.12094v6.pdf,第2页)✅
原文依据: 「Pyramidfnet (Yang et al., 2024) and PyramidKV (Zhang et al., 2024) modify the KV cache capacity across different layers, prioritizing larger allocations in the lower layers while reducing those in the upper layers.」(出自:2412.12094v6.pdf,第2页)
原文依据: 「Beltagy et al. (2020) combine dilated local window attention with task-specific global attention.」(出自:2412.12094v6.pdf,第2页)
解析: Longformer适用于长文档处理。
知识点: SnapKV的压缩类型 题目: SnapKV提出的KV缓存压缩方法是什么类型? 选项:
A. 固定压缩✅
B. 自适应压缩✅
C. 随机压缩✅
D. 静态压缩✅
正确答案: B
原文依据: 「SnapKV LLM Knows What You Are Looking for Before Generation. In Advances in Neural Information Processing Systems, 2024.」(出自:2412.12094v6.pdf,第10页)
解析: 自适应根据查询调整KV缓存。
知识点: 位置编码移位的作用 题目: 在SepLLM中,位置编码移位用于改善什么? 选项:
A. 计算速度✅
B. 长度外推能力✅
C. 注意力分数分布✅
D. 标记压缩率✅
正确答案: B
原文依据: 「Two Stones Hit One Bird. BElver Positional Encoding for Better Length Extraposition.」(出自:2412.12094v6.pdf,第10页)
原文依据: 「Figure 9. Needle-in-a-Haystack test results for our SepLLM… based on Pythia-160M-deduped. Figure 10… based on Llama-3-8B-instruct.」(出自:2412.12094v6.pdf,第18页)
解析: 测试验证了SepLLM的信息检索能力。
知识点: 模型泛化能力 题目: SepLLM被适应到哪些不同架构和规模的模型? 选项:
A. 仅Pythia系列✅
B. 仅Llama系列✅
C. Pythia、Llama和Falcon✅
D. 仅Falcon系列✅
正确答案: C
原文依据: 「adapt SepLLLM to models of different architectures and scales … Pythia 6.8, Pythia-2B … Lamm-3 8B … Falcon-4OB」(出自:2412.12094v6.pdf,第9页)
解析: 结果验证了其泛化能力。
知识点: 理论引理支持 题目: 论文使用哪些引理证明SepLLM的表达能力? 选项:
A. Lemma K.5和K.6✅
B. 仅Lemma K.4✅
C. 无引理支持✅
D. 仅实验数据✅
正确答案: A
原文依据: 「Lemma K. 5 … Lemma K.6」(出自:2412.12094v6.pdf,第17页)✅
解析: 这些引理显示SepLLM可近似标准Transformer。
知识点: 注意力地图可视化 题目: 注意力地图可视化显示分隔符标记贡献了什么? 选项:
A. 均匀注意力✅
B. 大量注意力✅
C. 最小注意力✅
D. 随机注意力✅
正确答案: B
原文依据: 「separator tokens like ” ” and ” ” contribute massive attentions.」(出自:2412.12094v6.pdf,第2页)