正如文章本身讲的,Adapter Layers Introduce Inference Latency / Directly Optimizing the Prompt is Hard. 作为一种微调方法,针对某个具体的下游任务,不再需要额外存储一个完整模型,只需要存储其对应的 LoRA 参数即可达到高效的存储。 通过切换不同的lora矩阵,在部署具体业务时能实现下游任务的快速切换,对于大规模LLM...