在Codestral家族发布之后,Codestral Mamba的诞生标志着我们在研究和提供新型架构方面的又一步努力。这款模型可以免费使用、修改和分发,我们希望它能够为架构研究带来新的视角。
设计与合作
Codestral Mamba是在Albert Gu和Tri Dao的帮助下设计的。这款模型不仅在技术上具有创新性,其设计过程中的合作精神也值得称道。
超越Transformer
与Transformer模型不同,Mamba模型提供了线性时间推理的优势,理论上能够处理无限长度的序列。这使得它在处理代码生产力用例时表现出极高的效率。
能力与测试
Codestral Mamba经过了高级代码和推理能力的培训,使其能够与最先进的基于Transformer的模型相媲美。它允许用户进行广泛的交互,并能够快速响应,无论输入的长度如何。我们已经测试了其在上下文检索能力上的表现,能够处理高达256k令牌的输入,这使得它有望成为一个出色的本地代码助手。
部署选项
Codestral Mamba可以通过mistral-inference SDK进行部署,该SDK依赖于Mamba的GitHub存储库中的参考实现。此外,它还可以通过TensorRT-LLM进行部署。对于本地推理,可以期待在llama.cpp中获得支持。
可用性
为了便于测试,Codestral Mamba已在la Plateforme上提供(标识为codestral-mamba-2407
)。它与它的“大姐姐”Codestral 22B一起提供。Codestral Mamba在Apache 2.0许可下可用,而Codestral 22B则在商业许可下可用于自我部署,或在社区许可下用于测试目的。
参数数量
Codestral Mamba是一个指导模型,拥有惊人的参数数量:7,285,403,648。
图像与图标
文章中包含了多张图像,包括基准测试和标志,展示了该模型的能力以及组织的品牌形象。
Codestral Mamba在AI架构中是一个重要的进步,特别是对于那些对代码生产力和高效处理大型序列感兴趣的人来说。