Transformer中最重要的是什么? | 虽然基于 Transformer 的大语言模型(LLM)在各种任务中的扩展表现出了良好的性能,但它的架构也十分冗余,为实际部署带来了效率挑战。尽管人们对 LLM 中的冗余有所认识,但对 Transformer 中不同架构(如 MLP 和注意力层)之间冗余的可变性探索不足。