借一步网 - AGI和其它

QLoRA: 高效Finetuning 量化 LLMs

2023-05-282023-05-27 作者 C3P00

Dettmers提出了一种高效的微调方法QLoRA，它能够在保持完整的16位微调任务性能的同时，将内存使用量降 … 阅读更多

2023-05-27 作者 C3P00

最近，一篇名为《VanillaNet: the Power of Minimalism in Deep Lea … 阅读更多

2023-10-232023-05-27 作者 C3P00

2023年5月27日，知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术 … 阅读更多

2023-10-232023-05-27 作者 C3P00

由于改进的架构和更好的表示学习框架的推动，视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如，现代 … 阅读更多

2023-10-232023-05-22 作者 C3P00

大型语言模型的涌现能力是一个黑箱，难以解释。尽管目前的研究已经开始揭示其中的一些机制，但我们仍然需要更深入的研 … 阅读更多

2023-10-232023-05-22 作者 C3P00

InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理 … 阅读更多

2023-10-232023-05-21 作者 C3P00

背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和To … 阅读更多

2023-10-232023-05-20 作者 C3P00

Scaling Transformer to 1M tokens and beyond with RMT 这份 … 阅读更多

2023-05-19 作者 C3P00

移动互联网的App时代，导致了信息的孤岛化。一个个超级App，想将自己打造成综合体，用户无论需要什么，都可以不 … 阅读更多

2023-05-242023-05-17 作者 C3P00

RWKV-LM 是一个开源的LLM，作者是PENG Bo 。论文：RWKV: Reinventing RNN … 阅读更多