DNABERT-2 的作者在论文中提到,他们采用 SentencePiece 的框架实现了 BPE Tokenization 的过程,但我并未找到具体的代码和细节。通过查看 Hugging Face Repo,他们所采用的框架应该是 Hugging Face 的 tokenizers。由于文章篇幅和格式所限,我把Notebook发布在了专栏的GitHub Repo中,里面除了 tokenizers 的实现,还有 Sente...