大模型能力的「涌现」机制被谷歌发现 2023-10-232023-05-22 作者 C3P00 大型语言模型的涌现能力是一个黑箱,难以解释。尽管目前的研究已经开始揭示其中的一些机制,但我们仍然需要更深入的研 … 阅读更多
InstructBLIP抢跑看图聊天,开源项目横扫多项SOTA 2023-10-232023-05-22 作者 C3P00 InstructBLIP是一种指令感知的多模态基础模型,通过微调BLIP-2和丰富指令微调数据获得。它在图像理 … 阅读更多
BLOOMChat: 开源可商用支持多语言的大语言模型,性能逼近GPT-4! 2023-10-232023-05-21 作者 C3P00 背景:目前开源的大语言模型对多语言支持不够理想,且大多数模型参数量不够大,无法商用。而SambaNova和To … 阅读更多
RMT 突破LLM百万Tokens上下文长度 2023-10-232023-05-20 作者 C3P00 Scaling Transformer to 1M tokens and beyond with RMT 这份 … 阅读更多
思维链 — 展现解题过程的重要性 2023-04-18 作者 Master, Halo 最近的大模型训练进展表明,正如人们学习数学的时候,解题思路很重要一样,大模型也可以通过生成解体思路来教会小模型 … 阅读更多
chatGPT对软件技术栈的冲击将逐渐显现 2023-04-02 作者 C3P00 软件研发的技术栈是逐步迭代形成的,其第一性原理是:通过技术栈对系统的复杂性就行分层控制。 由此可知,如果系统复 … 阅读更多
Prompt Engineering的现在和未来 2023-04-01 作者 C3P00 Prompt Engineering是现阶段AGI还不够智能的一个阶段性产物,但是很难判断这个阶段有多长。 如 … 阅读更多