首页 > 试题广场 >

在使用知识蒸馏(Knowledge Distillation

[单选题]
在使用知识蒸馏(Knowledge Distillation)时,温度参数T的作用是什么?
  • T越小,教师模型的软标签越平滑
  • T越大,教师模型输出的概率分布越平滑(softmax输出更均匀),能传递更多关于类别间相似性的暗知识(Dark Knowledge)
  • T仅影响训练速度
  • T应始终设为1

这道题你会答吗?花几分钟告诉大家答案吧!