建议阅读:《Optimal Subarchitecture Extraction for BERT》
1. 减少intermediate layer 能够明显降低模型的复杂度,并且在下游任务上的准确率并不会降低台所。
3000不大呀,跑5000 6000多都有