T越小,教师模型的软标签越平滑
T越大,教师模型输出的概率分布越平滑(softmax输出更均匀),能传递更多关于类别间相似性的暗知识(Dark Knowledge)
T仅影响训练速度
T应始终设为1
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题