表2比较了BERT压缩方法的有效性。注意一些方法只专注于压缩模型的一部分。有的将BERTBASE作为teacher,有的将BERTLARGE模型作为teacher。对于一致性,所有模型大小和加速效果报告压缩后的最终完整的模型与BERTBASE比较,即使最初是应用于BERTLARGE方法。使用BERTLARGE为teacher进行训练比其他方法有优势。我们也基于他们在不同的...
知乎知学堂 等你来答 知乎直答 切换模式 登录/注册 木羊 看了一篇想用知识蒸馏做ICT能力迁徙的论文,前面都挺好,一看实验,大模型用的是Bert-large 发布于 2023-01-18 18:17・IP 属地广东 写下你的评论... 登录知乎,您可以享受以下权益: 更懂你的优质内容 ...