也就是teacher不会儿提前训练,和student一起训练;第二项为student平均输出与hard target的loss;第三项是蒸馏loss,具体可展开成公式8,公式8中前两项是student输出的平均信息与teacher输出的平均信息kl loss以及mse loss,最后一项是每一个student branch的输出与其对应的teacher输出结果kl loss以及mse loss。
Reinforced Multi-teacher knowledge Distillation知识蒸馏+强化学习 hero focus 10 人赞同了该文章 目录 收起 动机: 方法: 老师总结科研方向: 动机: 1、多个教师模型(大模型)教一个学生模型(小模型),避免单个教师模型教学生模型,导致bias 2、当有多个老师时候,学生模型可否根据自己能力和教师特点,选择性进行学习...