在这项工作中,马里兰大学科利奇帕克分校团队使用一种基于相似性的度量方法研究了 Transformer 中不同模块(包括块、MLP 和注意力层)之间的冗余性。令人惊讶的是,尽管注意力层在区分 Transformer 与其他架构方面起着关键作用,但他们发现这些层中有很大一部分表现出过高的相似性,可以在不降低性能的情况下进行剪枝。例...