@misc{modernbert,
title={Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference},
author={Benjamin Warner and Antoine Chaffin and Benjamin Clavié and Orion Weller and Oskar Hallström and Said Taghadouini and Alexis Gallagher and Raja Biswas and Faisal Ladhak and Tom Aarsen and Nathan Cooper and Griffin Adams and Jeremy Howard and Iacopo Poli},
year={2024},
eprint={2412.13663},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.13663},
}
模型概述
ModernBERT-large 是一种现代化的双向编码器模型,采用了改进的变换器架构,专为处理长上下文任务而设计。该模型在2万亿个标记的英语和代码数据上进行了预训练,具有高达8192的原生上下文长度。这使得ModernBERT-large在需要处理长文档的任务中表现出色,如检索、分类和大规模语义搜索。
主要特点
使用方法
您可以通过以下方式直接使用ModernBERT-large模型:
由于ModernBERT是一个掩码语言模型(MLM),您可以使用
fill-mask
管道或通过AutoModelForMaskedLM
加载它。以下是一个使用示例:注意事项
token_type_ids
参数。评估结果
在多个任务上对ModernBERT进行了评估,包括自然语言理解(GLUE)、一般检索(BEIR)、长上下文检索(MLDR)和代码检索(CodeSearchNet和StackQA)。以下是一些关键亮点:
限制
训练细节
许可证
我们根据Apache 2.0许可证发布ModernBERT模型架构、模型权重和训练代码库。
引用
如果您在工作中使用ModernBERT,请引用以下内容:
结论
ModernBERT-large通过现代化的架构设计和高效的训练过程,为自然语言处理领域带来了新的可能性。它不仅在性能上超越了传统的BERT和RoBERTa模型,还在推理效率和内存使用上实现了显著提升。期待社区利用这一强大的工具,创造出更多创新的应用。