GQA: 从多头检查点训练广义多查询变换模型
引言 在自然语言处理领域,如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 … 阅读更多
引言 在自然语言处理领域,如何在不牺牲模型质量的前提下实现更快的推理速度一直是一个重要的研究课题。本文将介绍一 … 阅读更多
引言 最近,幻方发布的DeepSeek-V2引起了广泛关注。其1块钱100万token的价格令人惊叹,而背后的 … 阅读更多
引言 在生成扩散模型的应用中,如何在保证生成质量的前提下减少采样步数一直是一个关键问题。本文将介绍一种名为“S … 阅读更多
作者 Siyuan Guo, Aniket Didolkar, Nan Rosemary Ke, Anirud … 阅读更多
引言 药物不良事件(Adverse Drug Events,ADEs)的挖掘在药物警戒中至关重要,通过识别与药 … 阅读更多
在 Transformer 模型的演进过程中,位置编码一直是关键的一环。最近,笔者引入了一种新的位置编码方法— … 阅读更多
器官移植是一项复杂而精细的医学技术,它在挽救生命和改善生活质量方面发挥了巨大作用。然而,关于器官移植供体的死亡 … 阅读更多
人工智能研究的终极目标之一是构建开放式代理,而创造性代理更是其中最具吸引力的一类。然而,现有的大型语言模型(L … 阅读更多
随着科学发现逐渐依赖于大语言模型(LLMs)的辅助,我们开始看到这一领域的突破性进展。本文由 Siyuan G … 阅读更多
引言 在人工智能(AI)计算平台上实现高效的能源利用是一个关键挑战。生物系统展示了在复杂技能学习中的快速且高效 … 阅读更多