斯坦福最新Sophia优化器比Adam快2倍
斯坦福大学最近发布了一篇研究论文,提出了一种名为Sophia的新型优化器,用于提高大型语言模型(LLM)的预训 … 阅读更多
QLoRA: 高效Finetuning 量化 LLMs
Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降 … 阅读更多
VanillaNet: 极简主义的力量
最近,一篇名为《VanillaNet: the Power of Minimalism in Deep Lea … 阅读更多
知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型
2023年5月27日,知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术 … 阅读更多
ConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNets
由于改进的架构和更好的表示学习框架的推动,视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如,现代 … 阅读更多
大模型能力的“涌现”机制被谷歌发现
大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研 … 阅读更多
InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA
InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理 … 阅读更多
BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4!
背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和To … 阅读更多
RMT 突破LLM百万Tokens上下文长度
Scaling Transformer to 1M tokens and beyond with RMT 这份 … 阅读更多