基于特征的一对一:异构知识蒸馏的通用框架 | 知识蒸馏 (KD) 涉及将知识从预训练的重的教师模型迁移到较轻的学生模型,从而降低推理成本,同时保持相当的有效性。先前的 KD 技术通常假设教师和学生模型之间是同质的。然而,随着技术的进步,出现了各种各样的架构,从最初的卷积神经网络 (CNN) 到视觉Transformer (ViT)...
为了解决这一差距,我们提出了一个同步学习知识蒸馏 (SLKD) 框架,专门用于图像恢复任务的模型压缩。SLKD 采用双教师、单学生架构,同时具有两种不同的学习策略:退化消除学习 (DRL) 和图像重建学习 (IRL)。在 DRL 中,学生编码器从老师 A 那里学习,专注于消除退化因素,由新颖的 BRISQUE 提取器指导。在 IRL 中,学...
由于 KD 是一种学习标签平滑正则化 (LSR),我们首先进行理论分析,表明教师从上下文样本中获得的知识是规范学生训练与相应样本的关键因素。在分析的支持下,我们提出了一种新颖的上下文知识蒸馏 (IC-KD) 框架,该框架展示了其在各种 KD 范式(离线、在线和无教师 KD)中的优势。 首先,我们从教师模型构建一个特征记忆...
1、Mentor-KD 通过引入一个中等规模的任务特定模型(称为“导师模型”),解决了现有推理蒸馏方法中由于 LLM 教师模型提供的蒸馏数据集不足而导致的两个问题:数据质量低和缺乏软标签。2、导师模型通过在特定任务上进行微调,能够生成额外的多步推理(CoT)注释和软标签,从而增强学生模型的推理能力。这种方法不仅提高了数据...
近日,Google的DeepMind在"Reverse Thinking Makes LLMs Stronger Reasoners"中得出如下结论:逆向思维训练llm可大幅度提升模型推理能力。论文从数据合成,知识蒸馏的角度展开研究,通过构建能够揭示逆向思维过程的数据集,然后利用知识蒸馏框架,借助教师模型指导学生模型的训练过程,通过对正、逆向多任务学习,从而实现利用逆向思维...
在本研究中,我们提出了一种细粒度自适应特征掩码蒸馏框架,用于精确的目标检测。与以前在单尺度特征图上执行全局掩码的方法不同,我们通过跨各种尺度执行特征蒸馏来探索尺度感知特征掩码,从而对目标感知局部性进行编码以改进特征重构。此外,我们的细粒度特征蒸馏策略与掩码 logit 蒸馏方案相结合,其中利用教师和学生网络之间...