5、参考 [1].Channel-wise Knowledge Distillation for Dense Prediction*.
知识蒸馏(Knowledge Distillation,简称KD)已经证明了是一种十分有效的将大模型的知识迁移到小模型的手段。本文提出对于dense prediction这类检测,在激活层的每个channel上提取出soft target,然后再将student网络和teacher网络进行loss计算,可以充分利用不同通道关注着不同的特征这一特性,是一种state-of-the-art的方法,思路...
这里在说明一下dense prediction任务,dense prediction是一种将输入图片映射为复杂输出的一类任务,例如语义分割、深度估计、物体检测等。(参考文献《Structured Knowledge Distillation for Dense Prediction》) 一、KL散度 在解释文章思想之前,想先介绍一下KL散度。 根据维基百科中的解释,KL散度是用来度量使用基于Q的分布来...
代码:https://github.com/zhouzaida/channel-distillation 编辑:牛涛 现有的蒸馏方法始终存在于教师网络较大的精度差,作者认为有三个原因,1.教师传授的知识不够好 2.教师有可能传授错的知识 3.教室学生存在容量差,学生没法根据教师监督找到他自己的最优解 如上图,文章在每个下采样前的特征图上应用通道注意力机制,...
Second, the region-wise and channel-wise relationship distillation loss functions are introduced to penalize the difference in structural relationships. Specifically, the region-wise relationship can be represented by the structural correlations across the facial features, whereas the channel-wise ...
简介:必备技能 | YOLOv6中的用Channel-wise Distillation进行的量化感知训练来自哪里? 知识蒸馏 (KD) 已被证明是一种用于训练紧凑密集预测模型的简单有效的工具。轻量级学生网络通过从大型教师网络转移的额外监督进行训练。大多数先前用于密集预测任务的 KD 变体在空间域中对齐来自学生和教师网络的激活图,通常通过标准化...
在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图: 传统的空间域蒸馏如(a),在本文中首先对每个channel做softmax归一化,然后按通道计算教师和学生的KL散度作为loss softmax归一化 KL散度计算 ...