闪存式大模型:用非结构化稀疏性实现高效低成本的大型生成模型推理 2024-06-09 作者 C3P00 随着模型参数规模的快速增长,部署大型生成模型变得越来越具有挑战性,因为它们通常需要大量的 GPU 内存和计算资源。 ... 阅读更多
大型语言模型的 「闪存」:如何在内存有限的设备上高效运行? 2024-06-09 作者 C3P00 大型语言模型 (LLM) 已经成为自然语言处理领域的宠儿,它们在各种任务中展现出卓越的性能。然而,巨大的计算量和内 ... 阅读更多
语言模型能学什么?从学习概率正则语言的角度看 2024-06-09 作者 C3P00 大型语言模型 (LLM) 究竟能学到什么?这个问题看似简单,却暗藏玄机。从本质上来说,语言模型是定义在字符串上的概 ... 阅读更多
探索语言模型的易学性:从概率有限状态语言的学习视角 2024-06-09 作者 C3P00 引言 大型语言模型究竟能学到什么?这是一个不断被研究的问题。语言模型 (LM) 本质上是分布在字符串上的概率分布。 ... 阅读更多
告别矩阵乘法:探索轻量级语言模型的新纪元 2024-06-09 作者 C3P00 大型语言模型 (LLM) 在自然语言处理领域取得了巨大成功,但其高昂的计算成本和庞大的内存需求也成为了限制其应用的 ... 阅读更多
变形金刚竟是状态空间模型?揭秘高效序列模型的奥秘 2024-06-09 作者 C3P00 近年来,变形金刚 (Transformers) 凭借其强大的能力,在自然语言处理领域取得了巨大成功,成为深度学习的 ... 阅读更多
循环神经网络:消失和爆炸梯度并非全部故事 2024-06-09 作者 C3P00 循环神经网络 (RNN) 长期以来一直是建模时序数据的经典架构,但它们在训练长序列时却臭名昭著地难以训练。这是因为 ... 阅读更多
深入探讨循环神经网络:消失和爆炸梯度并非故事的终点 2024-06-09 作者 C3P00 循环神经网络 (RNNs) 长期以来一直是处理时间序列数据的经典架构。然而,RNN 在长序列训练中面临的一个主要难题 ... 阅读更多