知识蒸馏如何让小模型变得更强大？

Question

知识蒸馏如何让小模型变得更强大？

Accepted Answer

知识蒸馏通过从大型复杂的教师模型中迁移知识（而非仅依靠原始数据标签训练），使小模型得到增强。这让轻量级学生模型能够习得超越自身固有容量的丰富理解。

核心原理是训练小模型模仿教师模型经过软化的输出概率（"软标签"），这些软标签通常通过在softmax函数中使用较高温度生成。软标签揭示了教师模型的细微解读，例如类别之间的相似性。学生模型通过最小化损失函数进行学习，该损失函数结合了硬标签上的预测误差与衡量学生和教师软标签对齐程度的蒸馏损失。关键条件包括需要性能良好的教师模型，以及对温度和损失权重的仔细选择。

这项技术使得在手机或边缘硬件等资源受限设备上部署能力出众的小模型成为可能，而大型教师模型在这些设备上根本无法运行。通过捕获教师模型的泛化行为模式，蒸馏后的模型往往能达到比常规训练的小模型显著更高的准确率。其主要价值在于以大幅降低的计算成本、内存占用和推理延迟，获得接近教师模型的性能。

知识蒸馏如何让小模型变得更强大？

相关问题

模型微调和重新训练之间差别大吗？

零样本学习和小样本学习有什么区别？

小样本学习的应用场景有哪些？

BLEU 指标和 ROUGE 有什么区别？