教师模型训练通过海量数据训练高精度大模型(如DeepSeek-R1),学习数据中的复杂模式。而学生模型训练结合软标签与硬标签设计混合损失函数(如KL散度+交叉熵),优化学生模型参数。 教师模型输出的概率分布(软标签)包含类别间关系,比硬标签(单一答案)更利于学生模型泛化,所以,通过参数压缩、轻量化架构调整适配边缘设备。