知识蒸馏

更新于 2022-10-30 阅读次数：本文字数： 897 阅读时长 ≈ 1 分钟

distillation

Distillation知识蒸馏

知识蒸馏用于模型压缩，用一个已经训练好的模型A去教另一个模型B。又称为老师-学生模型。通常A比B强，B可以突破自我。

后面的矩阵[0.7,0.29,0.01]说明老师能够交给学生更多的东西：

[1,0,0] 就像标准答案，而 [0.7,0.29,0.01] 就是解析。

先介绍几个函数：

softmax

输出非负，0~1之间的概率分布

def softmax(x):
  x_exp = np.exp(x)
  return x_exp / np.sum(x_exp)

print(softmax(output))

//增加了t  temperature
def softmax(x,t):
  x_exp = np.exp(x/t)
  return x_exp / np.sum(x_exp)

print(softmax(output,5))

可见t会使得概率分布更加平滑

log_softmax

输出全为负数
NLLLoss

输入：log_softmax(output),target

从NLLLoss中可以看出第三类最小，其实从 [1.2,2,3] 的得分中也可以看出第三类得分最高。
CE交叉熵

其中qk 是神经网络认为第k类的概率，并且是经过softmax的了。

确实只有当py=1 的时候，就可以简化为\(-log (q_y)\)

可以发现CE可以一步到位。