关注
优化器:SGD,Adam,Rmsprop。Adam叫做动量法或者冲量法,提出的原因是:有时候学习率太大一步会走错很多,所以Adam舍弃了线性函数而采用多项式(该点的泰勒展开式)来更贴近目标。不仅如此,他还考虑了在正确的方向上尽可能地加速,在错误的方向上尽可能地减速:将某个梯度方向上的历史数据大小加权求和,如果很长一段时间梯度大小都大于0,那这个方向说明没有问题需要加速,而如果经常正负交替这说明可能方向错误,则需要放缓抖动。
查看原帖
点赞 评论
相关推荐
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 去年的flag与今年的小目标 #
1989次浏览 61人参与
# 应届生应该先就业还是先择业 #
160842次浏览 810人参与
# 26年哪些行业会变好/更差 #
2865次浏览 50人参与
# 哪些公司在招寒假实习? #
1429次浏览 26人参与
# 你都用AI做什么 #
2085次浏览 57人参与
# 卷__卷不过你们,只能卷__了 #
1255次浏览 27人参与
# 有深度的简历长什么样? #
5259次浏览 98人参与
# 写论文的崩溃时刻 #
1426次浏览 31人参与
# 入职第一天 #
4239次浏览 48人参与
# 秋招你被哪家公司挂了? #
999033次浏览 7665人参与
# 这个工作能去吗 #
99563次浏览 614人参与
# 一人分享一道面试手撕题 #
8111次浏览 424人参与
# 你不能接受的企业文化有哪些 #
2629次浏览 56人参与
# 为什么国企只招应届生 #
227673次浏览 1273人参与
# 研究所VS国企,该如何选 #
236819次浏览 1965人参与
# 跳槽时有那些注意事项 #
117522次浏览 585人参与
# 小米求职进展汇总 #
998134次浏览 6501人参与
# 机械应届生薪资要多少才合适? #
35406次浏览 106人参与
# 机械人的薪资开到多少,才适合去? #
158310次浏览 553人参与
# 非技术岗薪资爆料 #
471028次浏览 3015人参与
查看14道真题和解析