首页 > 试题广场 >

在训练一个复杂的深度学习模型时,你发现损失函数在训练初期下降

[单选题]
在训练一个复杂的深度学习模型时,你发现损失函数在训练初期下降很快,但随后长时间停滞在一个平坦区域(plateau),最终才缓慢地继续下降。这种平坦区域很可能是鞍点(saddle point)而非局部最小值。相较于标准的随机梯度下降(SGD),以下哪种优化器或技术在设计上更擅长帮助模型“逃离”鞍点?
  • 带有动量(Momentum)的SGD,因为它能够累积历史梯度信息,帮助优化路径穿越梯度接近于零的平坦区域。
  • Adagrad,因为它对每个参数使用不同的学习率,但其学习率会随时间单调递减,可能过早地停止学习。
  • 批量梯度下降(BGD),因为它使用全部数据计算梯度,方向最准确,但如果梯度在鞍点为零,它仍然会停滞。
  • 增加批量大小(Batch Size),这能让梯度估计更稳定,但对于克服鞍点本身的几何特性没有直接帮助。
这个直接显示答案了吧,建议修改一下
发表于 今天 08:19:14 回复(0)