优化器:SGD,Adam,Rmsprop。Adam叫做动量法或者冲量法,提出的原因是:有时候学习率太大一步会走错很多,所以Adam舍弃了线性函数而采用多项式(该点的泰勒展开式)来更贴近目标。不仅如此,他还考虑了在正确的方向上尽可能地加速,在错误的方向上尽可能地减速:将某个梯度方向上的历史数据大小加权求和,如果很长一段时间梯度大小都大于0,那这个方向说明没有问题需要加速,而如果经常正负交替这说明可能方向错误,则需要放缓抖动。
点赞 评论

相关推荐

星辰再现:裁员给校招生腾地方
点赞 评论 收藏
分享
06-12 16:23
已编辑
小米_软件开发(准入职员工)
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务