返回
企业应用
知识蒸馏的原理是什么?
知识蒸馏是一种将知识从大型复杂模型(教师模型)迁移到更小、更简单模型(学生模型)的技术。通过训练学生模型模仿教师模型的行为,实现模型压缩或性能提升。
核心原理是让学生学习复现教师模型的输出分布,特别是通过在最终softmax层使用高温度参数生成的软化输出概率("软标签")。这比单纯使用硬标签更好地捕获了教师模型细微的类间关系。一个加权损失函数(通常结合蒸馏损失——教师和学生软标签之间的KL散度,以及标准监督训练损失)指导学习过程。该过程需要访问训练数据和预训练的教师模型。
知识蒸馏广泛应用于创建可部署的模型。它在显著减小模型体积和计算需求的同时,保留了教师模型的大部分精度,从而在手机和嵌入式系统等资源受限设备上实现高效推理。蒸馏后的学生模型在生产环境中提供了性能与效率的实用平衡。
FAQ