随着大语言模型的出现,知识蒸馏的作用范围不断扩大,逐渐扩展到了用于提升小模型的性能以及模型的自我提升。 2024 年初,陶大程团队与香港大学和马里兰大学等合作,发表了最新综述《A Survey on Knowledge Distillation of Large Language Models》,总结了 374 篇相关工作,探讨了如何从大语言模型中获取知识,训练较小模型,...
知识蒸馏技术可以解决这一问题,它通过利用商业LLM的高性能,将其知识“蒸馏”到更小的开源模型中,从而实现高性能和低成本。近日,由来自不同研究机构的研究者发布了“A Survey on Knowledge Distillation of Large Language Models”综述了LLM知识蒸馏领域的最新研究进展,包括知识提取、模型压缩和垂直领域应用等方面。 论...
综上所述,知识蒸馏是一种将大模型的知识传递给小模型的方法,以在保持性能的同时减少模型的复杂性。通过软目标训练和模型结构设计,知识蒸馏在各个领域都取得了显著的成果。尽管目前存在一些挑战和问题,但随着技术的不断发展和创新,相信知识蒸馏在深度学习中将会取得更加显著的成果,为模型的压缩和优化提供更好的方...
知识蒸馏知识蒸馏(KD)是一种实用的机器学习技术,旨在提高模型性能和泛化能力。该技术将知识从被称为教师模型的复杂模型转移到被称为学生模型的更简单模型。KD 背后的核心思想是从教师模型的全面知识中转化出更精简、更有效的代表。本文概述了使用 LLM 作为教师模型的蒸馏方法。研究者根据这些方法是否侧重于将 LLM 的...
首先,根据大语言模型知识蒸馏的流程,该综述将知识蒸馏分解为了两个步骤: 1.知识获取(Knowledge Elicitation):即如何从教师模型中获取知识。其过程主要包括: a) 首先构建指令来确定要从教师模型中蒸馏的技能或垂直领域的能力。 b) 然后使用种子知识(如某个数据集)作为输入来驱动教师模型,生成对应的回应,从而将相应的...
如下图 1 所示,本文提出的分类法为理解 LLM 的模型压缩方法提供了一个完整的结构化框架。这一探索包括对已有成熟技术的透彻剖析,包括但不限于剪枝、知识蒸馏、量化和低秩因子分解。此外,本文揭示了当前的挑战,并展望了这一发展领域未来潜在的研究轨迹。研究者还倡导社区合作,为 LLM 建立一个具有生态意识、包罗万象...