我们在GPT-3 175B上设置了 18M的参数预算(如果存储在FP16中,大约是35MB),如果调整一种类型的注意力权重,则对应于r=8,如果对所有96层调整两种类型,则对应r=4。结果见表5。结果列于表5。 注意,将所有参数设置为∆Wq或∆Wk会显著降低性能,而调整Wq和Wv会产生最佳结果。这表明,即使是rank=4也能捕获∆...