Knowledage Distillation (知识蒸馏):KD
KD时一种机器学习的压缩方法,主要是将大模型的知识迁移到小模型中,也成为教师(大模型)-学生(小模型)神经网络学习算法,核心是将大模型的综合知识转化为更精准、更有效的表示,从而提高模型的性能和泛化能力。根据LLM模型的涌现能力(EA),可分为标准的KD和基于EA的KD,如下图所示。
Knowledage Distillation (知识蒸馏):KD
KD时一种机器学习的压缩方法,主要是将大模型的知识迁移到小模型中,也成为教师(大模型)-学生(小模型)神经网络学习算法,核心是将大模型的综合知识转化为更精准、更有效的表示,从而提高模型的性能和泛化能力。根据LLM模型的涌现能力(EA),可分为标准的KD和基于EA的KD,如下图所示。