博主您好,不好意思打扰您了。我是一名在读研究生,最近看了您写的关于《A Comprehensive Overhaul of Feature Distillation》这篇论文的博客,其中有些问题不太明白想咨询您,如果您在百忙之中有空愿意指点一二的话,不胜感激!
我的问题主要有以下两点:
为什么要用marginal relu?您在博客中提到“正值都保留,负值被抑制。这样的话就不用学习精确的“没有用”的负值,而集中精力学习“有用”的正值”。如果是这样的目的的话,既然觉得负值是没有用的,甚至论文中用到的词“有害的”,为什么不直接使用relu过滤掉所有负值呢?这样不是更能集中精力去学习正值?
为什么partial L2损失函数里面要对si<=Ti<=0的情况直接认为为0呢?您在博客提到“如果teacher小于0时,student比它小就不必惩罚,因为经过ReLU后是一样的”,那么如果teacher小于0时,student比它大但是比0小是不是也不需要惩罚呢?因为经过ReLU后是一样的都是0啊?