5、参考 [1].Channel-wise Knowledge Distillation for Dense Prediction*.
知识蒸馏(Knowledge Distillation,简称KD)已经证明了是一种十分有效的将大模型的知识迁移到小模型的手段。本文提出对于dense prediction这类检测,在激活层的每个channel上提取出soft target,然后再将student网络和teacher网络进行loss计算,可以充分利用不同通道关注着不同的特征这一特性,是一种state-of-the-art的方法,思路...
It also holds significant potential for various applications, including system manipulation (Bau et al., 2019) and model distillation (Rethmeier et al., 2020, Frankle and Carbin, 2018). We use probing classifiers to conduct a post-hoc functional interpretation. Our analysis includes a layer-wise...
这里在说明一下dense prediction任务,dense prediction是一种将输入图片映射为复杂输出的一类任务,例如语义分割、深度估计、物体检测等。(参考文献《Structured Knowledge Distillation for Dense Prediction》) 一、KL散度 在解释文章思想之前,想先介绍一下KL散度。 根据维基百科中的解释,KL散度是用来度量使用基于Q的分布来...
代码:https://github.com/zhouzaida/channel-distillation 编辑:牛涛 现有的蒸馏方法始终存在于教师网络较大的精度差,作者认为有三个原因,1.教师传授的知识不够好 2.教师有可能传授错的知识 3.教室学生存在容量差,学生没法根据教师监督找到他自己的最优解 ...
在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图: 传统的空间域蒸馏如(a),在本文中首先对每个channel做softmax归一化,然后按通道计算教师和学生的KL散度作为loss softmax归一化 KL散度计算 ...