初学者,试图在本地,利用神经网络复现一下知识蒸馏。
数据集是MNIST
三层全链接神经网络
epoch=500
教师网络隐层1500个神经元
预测准确率99%
学生网络隐层1500个神经元
预测准确率89%
请问loos=(1-γ)TTsoft loos + γhard loss
γ,T取值多少合适
0.9 20准确率降到85%
初学者,试图在本地,利用神经网络复现一下知识蒸馏。
数据集是MNIST
三层全链接神经网络
epoch=500
教师网络隐层1500个神经元
预测准确率99%
学生网络隐层1500个神经元
预测准确率89%
请问loos=(1-γ)TTsoft loos + γhard loss
γ,T取值多少合适
0.9 20准确率降到85%