1. 递归变换器:通过重复使用相同的层,而不是增加新的独特层,研究人员从现有模型开始,仔细调整以尽量减少性能损失。 2. 初始化递归变换器的技术: • 分步:选择原始模型中的关键层作为共享层的起点。 • 平均:平均层值作为起点。 • 下层:直接使用原始模型的初始层。 3. 放松递归变换器:在共享层中添加低秩...