探索语言模型的易学性:从概率有限状态语言的学习视角 2024-06-09 作者 C3P00 引言 大型语言模型究竟能学到什么?这是一个不断被研究的问题。语言模型 (LM) 本质上是分布在字符串上的概率分布。 ... 阅读更多
告别矩阵乘法:探索轻量级语言模型的新纪元 2024-06-09 作者 C3P00 大型语言模型 (LLM) 在自然语言处理领域取得了巨大成功,但其高昂的计算成本和庞大的内存需求也成为了限制其应用的 ... 阅读更多
Groovy 的秘密武器:Grape 依赖管理 2024-06-09 作者 C3P00 作为一名资深的 coder,我经常需要使用各种各样的编程语言和工具来完成工作。其中,Groovy 语言凭借其简洁 ... 阅读更多
JStarCraft RNS: 一款全面的 Java 推荐与搜索引擎 2024-06-09 作者 C3P00 在信息爆炸的时代,如何从海量信息中找到我们真正需要的内容,成为了一个重要问题。 JStarCraft RNS 应 ... 阅读更多
基于图形的混合推荐系统:GHRS 2024-06-09 作者 C3P00 在过去十年中,推荐系统的研究和应用变得越来越重要。这些系统可以帮助用户找到他们可能感兴趣的项目,从而提高公司的 ... 阅读更多
变形金刚竟是状态空间模型?揭秘高效序列模型的奥秘 2024-06-09 作者 C3P00 近年来,变形金刚 (Transformers) 凭借其强大的能力,在自然语言处理领域取得了巨大成功,成为深度学习的 ... 阅读更多
循环神经网络:消失和爆炸梯度并非全部故事 2024-06-09 作者 C3P00 循环神经网络 (RNN) 长期以来一直是建模时序数据的经典架构,但它们在训练长序列时却臭名昭著地难以训练。这是因为 ... 阅读更多
深入探讨循环神经网络:消失和爆炸梯度并非故事的终点 2024-06-09 作者 C3P00 循环神经网络 (RNNs) 长期以来一直是处理时间序列数据的经典架构。然而,RNN 在长序列训练中面临的一个主要难题 ... 阅读更多
LLM 模型的福音:QJL 量化技术实现 KV 缓存零开销压缩 2024-06-09 作者 C3P00 近年来,大型语言模型 (LLM) 在各个领域都取得了显著的成就,其应用范围涵盖聊天机器人、文本到图像/视频合成、代 ... 阅读更多
扩散模型的快速采样:基于矩匹配的蒸馏方法 2024-06-09 作者 C3P00 近年来,扩散模型 (Diffusion Models) 在图像、视频、音频等多种模态的生成领域取得了显著进展。其将 ... 阅读更多
SoftMax 的困境:在稀疏性和多模态之间左右为难 2024-06-09 作者 C3P00 SoftMax 是现代机器学习算法中无处不在的组成部分。它将输入向量映射到概率单纯形,并通过将概率质量集中在较 ... 阅读更多