5、参考 [1].Channel-wise Knowledge Distillation for Dense Prediction*.
论文:Channel-wise Knowledge Distillation for Dense Prediction Introduction 知识蒸馏(Knowledge Distillation,简称KD)已经证明了是一种十分有效的将大模型的知识迁移到小模型的手段。本文提出对于dense prediction这类检测,在激活层的每个channel上提取出soft target,然后再将student网络和teacher网络进行loss计算,可以充分利用...
原文地址:《Channel-wise Knowledge Distillation for Dense Prediction》 代码地址:https://git.io/Distille(由原文提供,好像打不开了) 该文发表在ICCV2021上。文章针对密集性预测任务(dense prediction)提出一种简单而有效的蒸馏方式,之前的知识蒸馏方式之前对于密集预测任务的蒸馏方法都是通过在空间维度上对齐老师和学...
代码:https://github.com/zhouzaida/channel-distillation 编辑:牛涛 现有的蒸馏方法始终存在于教师网络较大的精度差,作者认为有三个原因,1.教师传授的知识不够好 2.教师有可能传授错的知识 3.教室学生存在容量差,学生没法根据教师监督找到他自己的最优解 如上图,文章在每个下采样前的特征图上应用通道注意力机制,...
Knowledge distillation (KD) has been proven to be a simple and effective tool for training compact models. Almost all KD variants for dense prediction tasks align the student and teacher networks' feature maps in the spatial domain, typically by minimizing point-wise and/or pair-wise discrepancy...
Second, the region-wise and channel-wise relationship distillation loss functions are introduced to penalize the difference in structural relationships. Specifically, the region-wise relationship can be represented by the structural correlations across the facial features, whereas the channel-wise ...
简介:必备技能 | YOLOv6中的用Channel-wise Distillation进行的量化感知训练来自哪里? 知识蒸馏 (KD) 已被证明是一种用于训练紧凑密集预测模型的简单有效的工具。轻量级学生网络通过从大型教师网络转移的额外监督进行训练。大多数先前用于密集预测任务的 KD 变体在空间域中对齐来自学生和教师网络的激活图,通常通过标准化...
代码:https://git.io/Distiller 编辑:牛涛 将中间特征作为知识传授给学生网络已经被验证有效,但是直接对齐可能会强制学生网络模拟教师,相当于加上了十分苛刻的约束,可能会导致次优解。 在分割任务中,特征图的不同通道侧重于关注图像的不同区域(比如前景和背景),因此对特征图做通道蒸馏,具体方法如下图: ...