🔥一曲红绡不知数:前大模型时代,BERT让【预训练】和【Transformer架构】两大技术理念牢牢扎根 😭门前冷落鞍马稀:但如今在decoder-only结构为主的大模型时代,BERT这类encoder结构+MLM预训练的模型虽然还在工业界广泛使用,得到的研究关注却少了许多,大伙的记忆还停留在RoBERTa和DeBERTa这些经典的改进版 ✅Make