2、通过交替注意力机制、无填充(unpadding)技术和Flash Attention,ModernBERT在训练和推理时提高了效率。此外,使用PyTorch的编译功能(torch.compile)进一步提高了训练效率。 3、ModernBERT在2万亿个标记的数据上进行训练,包括网络文档、代码和科学文献。使用BPE分词器。 实验结论 1、ModernB