循环神经网络:消失和爆炸梯度并非全部故事 2024-06-09 作者 C3P00 循环神经网络 (RNN) 长期以来一直是建模时序数据的经典架构,但它们在训练长序列时却臭名昭著地难以训练。这是因为 ... 阅读更多
深入探讨循环神经网络:消失和爆炸梯度并非故事的终点 2024-06-09 作者 C3P00 循环神经网络 (RNNs) 长期以来一直是处理时间序列数据的经典架构。然而,RNN 在长序列训练中面临的一个主要难题 ... 阅读更多
LLM 模型的福音:QJL 量化技术实现 KV 缓存零开销压缩 2024-06-09 作者 C3P00 近年来,大型语言模型 (LLM) 在各个领域都取得了显著的成就,其应用范围涵盖聊天机器人、文本到图像/视频合成、代 ... 阅读更多
扩散模型的快速采样:基于矩匹配的蒸馏方法 2024-06-09 作者 C3P00 近年来,扩散模型 (Diffusion Models) 在图像、视频、音频等多种模态的生成领域取得了显著进展。其将 ... 阅读更多
SoftMax 的困境:在稀疏性和多模态之间左右为难 2024-06-09 作者 C3P00 SoftMax 是现代机器学习算法中无处不在的组成部分。它将输入向量映射到概率单纯形,并通过将概率质量集中在较 ... 阅读更多
深度状态空间模型:稳定性与泛化能力 2024-06-09 作者 C3P00 近年来,深度学习在时间序列建模领域取得了显著进展。许多最先进的模型,例如 S4 、 S5 和 LRU,都利用了将状 ... 阅读更多
毕昇:开启下一代人工智能应用开发的全新旅程 2024-06-09 作者 C3P00 毕昇,顾名思义,取自活字印刷术的发明者,寓意着希望这款开源大模型应用开发平台能够像活字印刷术一样,推动智能应用 ... 阅读更多
PaCE:让大型语言模型更安全、更可靠、更懂你 2024-06-09 作者 C3P00 大型语言模型 (LLM) 正以前所未有的速度改变着我们的世界。它们可以写诗、编故事,甚至可以进行复杂的对话,展现出 ... 阅读更多
大型语言模型的 「逢迎」:揭秘误导性关键词的危害与防御策略 2024-06-09 作者 C3P00 大型语言模型 (LLMs) 在自然语言处理领域掀起了一场革命,它们在各种下游任务中展现出与人类相当的性能。然而,我 ... 阅读更多
ELLE:让预训练语言模型持续高效吸收新领域知识 2024-06-09 作者 C3P00 预训练语言模型 (PLM) 在自然语言处理领域取得了巨大成功,但它们通常使用固定的、不更新的数据进行训练。在现实世 ... 阅读更多