以蒸馏的名义:「从去噪自编码器到生成模型」重现江湖 2024-05-29 作者 C3P00 前言 今天我们要聊的,是一篇名为《Score identity Distillation: Exponenti … 阅读更多
数字版「疯牛病」:生成模型的自噬之路 2024-05-29 作者 C3P00 引言 众所周知,不管是文本还是视觉领域,各种生成模型正在以无法阻挡的势头「肆虐」互联网。虽然大家都明白,实现真 … 阅读更多
梯度流与Wasserstein梯度流:从山顶滑雪到概率风景线 2024-05-29 作者 C3P00 大家好!今天我们要聊一聊一个有趣的概念,叫做「梯度流(Gradient Flow)」。别紧张,这不是物理课,而 … 阅读更多
朴素贝叶斯与注意力机制:一场「心有灵犀」的邂逅 2024-05-29 作者 C3P00 嘿,朋友们!今天我们要聊的可是AI界的两位「大明星」——朴素贝叶斯(Naive Bayes)和注意力机制(At … 阅读更多
Transformer升级之路:逆用Leaky ReRoPE解决推理成本问题 2024-05-29 作者 C3P00 在上周的文章《Transformer升级之路:12、无限外推的ReRoPE?》中,我们介绍了ReRoPE和Le … 阅读更多
增大Tokenizer词表:LLM续写任务的新挑战与解决方案 2024-05-29 作者 C3P00 语言模型(LLM)在自然语言处理中的应用越来越广泛,而通过增大Tokenizer的词表来提高压缩率,从而缩短串 … 阅读更多
探索线性Attention的局限性:从「集中注意力」角度出发 2024-05-29 作者 C3P00 近年来,Transformer架构在自然语言处理领域取得了显著的成果,而Attention机制则是其核心所在。 … 阅读更多