带有动量(Momentum)的SGD,因为它能够累积历史梯度信息,帮助优化路径穿越梯度接近于零的平坦区域。
Adagrad,因为它对每个参数使用不同的学习率,但其学习率会随时间单调递减,可能过早地停止学习。
批量梯度下降(BGD),因为它使用全部数据计算梯度,方向最准确,但如果梯度在鞍点为零,它仍然会停滞。
增加批量大小(Batch Size),这能让梯度估计更稳定,但对于克服鞍点本身的几何特性没有直接帮助。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题