在这项工作中,我们提出了一种特定于任务的结构化剪枝方法,称为 CoFi(粗粒度和细粒度剪枝),并表明结构化剪枝可以实现高度紧凑的子网络,并获得比蒸馏方法更大的加速和竞争精度,同时需要更少的计算 . 我们的主要见解是同时联合修剪粗粒度单元(例如,自我注意或前馈层)和细粒度单元(例如,头部、隐藏维度)。 与现有工作...