• 分步:选择原始模型中的关键层作为共享层的起点。 • 平均:平均层值作为起点。 • 下层:直接使用原始模型的初始层。 3. 放松递归变换器:在共享层中添加低秩调整(LoRA)模块,使每次循环中有一小部分独特参数,