知识蒸馏的原理是什么？

Question

知识蒸馏的原理是什么？

Accepted Answer

知识蒸馏是一种将知识从大型复杂模型（教师模型）迁移到更小、更简单模型（学生模型）的技术。通过训练学生模型模仿教师模型的行为，实现模型压缩或性能提升。

核心原理是让学生学习复现教师模型的输出分布，特别是通过在最终softmax层使用高温度参数生成的软化输出概率（"软标签"）。这比单纯使用硬标签更好地捕获了教师模型细微的类间关系。一个加权损失函数（通常结合蒸馏损失——教师和学生软标签之间的KL散度，以及标准监督训练损失）指导学习过程。该过程需要访问训练数据和预训练的教师模型。

知识蒸馏广泛应用于创建可部署的模型。它在显著减小模型体积和计算需求的同时，保留了教师模型的大部分精度，从而在手机和嵌入式系统等资源受限设备上实现高效推理。蒸馏后的学生模型在生产环境中提供了性能与效率的实用平衡。

知识蒸馏的原理是什么？

相关问题

模型微调和重新训练之间差别大吗？

零样本学习和小样本学习有什么区别？

小样本学习的应用场景有哪些？

BLEU 指标和 ROUGE 有什么区别？