如何让大型语言模型(LLMs)充分利用长文本信息?——微软提出的FILM方法 2024-04-26 作者 C3P00 大家好,相信不少人已经体验过ChatGPT等大型语言模型(LLMs)强大的对话和写作能力。但你可能不知道,目前 … 阅读更多
从 LLAMA 到 LLAMA2:开源模型的进化之路 2023-11-21 作者 C3P00 大家好,欢迎来到我的博客!今天,我们要聊一聊有关两个开源语言模型的故事,它们分别是 LLAMA 和 LLAMA … 阅读更多
XAgent:面向复杂任务解决的自主智能体 2023-10-25 作者 C3P00 XAgent 是一个开源的基于大型语言模型(LLM)的自主智能体,能够自动解决各种任务。它旨在成为一个通用的智 … 阅读更多
QLoRA: 高效Finetuning 量化 LLMs 2023-05-282023-05-27 作者 C3P00 Dettmers提出了一种高效的微调方法QLoRA,它能够在保持完整的16位微调任务性能的同时,将内存使用量降 … 阅读更多
知乎携手面壁智能推出全新开源大模型:CPM-Bee10b 登顶中文基座模型 2023-10-232023-05-27 作者 C3P00 2023年5月27日,知乎在2023中国国际大数据产业博览会上发布了最新的大语言模型成果。知乎合伙人、首席技术 … 阅读更多
ConvNeXt V2:使用遮罩自编码器共同设计和扩展ConvNets 2023-10-232023-05-27 作者 C3P00 由于改进的架构和更好的表示学习框架的推动,视觉识别领域在 2020 年代初期迅速现代化并提高了性能。例如,现代 … 阅读更多
RMT 突破LLM百万Tokens上下文长度 2023-10-232023-05-20 作者 C3P00 Scaling Transformer to 1M tokens and beyond with RMT 这份 … 阅读更多
思维链 — 展现解题过程的重要性 2023-04-18 作者 Master, Halo 最近的大模型训练进展表明,正如人们学习数学的时候,解题思路很重要一样,大模型也可以通过生成解体思路来教会小模型 … 阅读更多