[1]ZhaoB,CuiQ,SongR,etal.DecoupledKnowledgeDistillation[C]//ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition.2022:11953-11962. [2]GeoffreyHinton,OriolVinyals,andJeffDean.Distillingtheknowledgeinaneuralnetwork.InarXiv:1503.02531,2015. [3]YingZhang,TaoXiang,TimothyMHospedales,andHuchua...
论文名称:Decoupled Knowledge Distillation 论文地址: https://arxiv.org/pdf/2203.08679.pdf 解耦知识蒸馏 (CVPR 2022) (来自旷视科技,早稻田大学,清华大学) 1 DKD 原理分析 1.1 DKD 设计动机 现代知识蒸馏方法大多数注重深层的中间特征层面的知识蒸馏 (feature distillation),而对于相对而言比较原始的输出层面的知识...
[1] Zhao B, Cui Q, Song R, et al. Decoupled Knowledge Distillation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 11953-11962. [2] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. In arXiv:1503.02...
对 7 年前 Hinton 提出的知识蒸馏方法(Knowledge Distillation,下文简称 KD)[1] 进行了解耦和分析,发现了一些限制 KD 性能的重要因素,进而提出了一种新的方法「解耦知识蒸馏」(Decoupled Knowledge Distillation,下文简称 DKD)[2],使得 logits 蒸馏重回 SOTA 行列。
论文名称:Decoupled Knowledge Distillation 论文地址: https://arxiv.org/pdf/2203.08679.pdf 1 DKD 原理分析 1.1 DKD 设计动机 现代知识蒸馏方法大多数注重深层的中间特征层面的知识蒸馏 (feature distillation),而对于相对而言比较原始的输出层面的知识蒸馏 (logit distillation) 的研究,因为性能不如...