Adam结合了动量和RMSProp,可以对参数进行自适应的学习率调整,训练初期收敛更快。SGD需要手动调整学习率,在最小值平坦区域收敛变慢(摘抄自CSDN)

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务