Deep networks在计算机视觉任务中取得了优异的表现,然而这些模型由于规模的庞大通常无法直接部署到计算能力有限的小型设备上。那么如何在压缩模型的同时避免模型表现有过大的损失呢?知识蒸馏是其中的一个解决方向,利用已经训练好的笨重模型来指导更为轻量的模型进行训练。本次分享的论文的主题是如何利用teacher模型指导训练一个在层数更深但在规模上更小的student网络。