首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
期待一个好结果吧
浙江大学附属中学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(六):优化器
学习资料(讲的很细很清楚):一个框架看懂优化算法之异同 SGD/AdaGrad/AdamAdam那么棒,为什么还对SGD念念不忘 (3)—— 优化算法的选择与使用策略(1条消息) 机器学习11种优化器推导过程详解(SGD,BGD,MBGD,Momentum,NAG,Adagrad,Adadelta,RMSprop,Adam,Nadma,Adamx)_日拱一两卒的博客-CSDN博客_机器学习优化器总结优化器的作用:更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。发展路径:SGD -> SGDM -> NAG -> AdaGrad -> AdaDelta / RMSProp -> Adam -> Nadam -> AdamW发展阶段:没有动量:梯度下降<计算所有样本的梯度平均> / SGD<随机选择一个样本计算梯度> / 小批量随机梯度下降<每次处理一批样本>一阶动量(惯性):SGDM<梯度更新方向由历史梯度更新方向和当前梯度更新方向共同决定> / NAG<假设参数先按上一轮梯度更新方向变化,再计算当前梯度更新方向> 二阶动量(自适应学习率):AdaGrad<迄今为止所有梯度的平方和> / AdaDelta / RMSProp<只关注过去一段时间内的梯度更新频率> 一阶动量+二阶动量:Adam<SGDM+AdaDelta> / Nadam<NAG+AdaDelta> / AdamW<Adam+L2正则化>各种优化器如何选择刚入门选NAG或Adam如果模型非常稀疏,优先考虑自适应学习率的算法随机梯度下降算法的收敛速度和数据集大小的关系不大。因此,可以先用一个具有代表性的小数据集进行实验,测试一下最好的优化算法,然后通过参数搜索的方式寻找最优的训练参数。等等。BERT使用的优化器是什么?Adam相较于传统的SGD的优点是什么?(超参数一面)BERT使用的是Adam优化器。Adam结合SGDM和AdaDelta两种优化算法的优点。对梯度的一阶动量(惯性)和二阶动量(更新频率)进行综合考虑,计算出更新步长。一阶动量的优势在于他能够学习到历史梯度下降的惯性,避免受到单个样本分布的干扰,减少震荡,加快收敛;二阶动量的优势在于是自适应学习率,为参数的不同维分配不同的学习率,在模型稀疏的情况下效果很好。PS:Notion的笔记复制过来格式会变,这次就用截图吧,希望能看清楚。。。
点赞 16
评论 3
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 08:36
湖南师范大学 前端工程师
4.1快手前端一面
自我介绍 学前端多久了 用过什么AI cursor的贡献量 var let 变量函数作用域 代码输出var count = 2; a(){ return count + 1; } fn1(){ var count =1; a(); }proptotype原型链,对象 代码输出题 fn(){ this.a=1; return {a=2;b=3} } fn.prototype.a=6; fn.prototype.b=7; fn.prototype.c=8 obj = new fn(); obj的abc?讲讲promiseTS泛型 接口 type区别手写new手写 TS pick手写 JS prom...
点赞
评论
收藏
分享
04-08 14:40
Web前端
26学院本前端能进外包吗
目前一共有两段实习,第一家是自研,第二家是外包,因为接触过外包的工作,发现外包的流程都不是很规范,所以一直在找自研,但是春招投了很多简历,有回信的都是些外包,之前有了解到如果干了外包很难转自研,害怕如果毕业第一段工作就是外包后面就去不了自研了,有佬能给点建议吗
春招至今,你收到几个面试...
点赞
评论
收藏
分享
02-25 13:02
中南大学 C++
简历求拷打
佬们看看这个简历可以冲大厂吗
竹秋拾:
我建议985加大加粗
点赞
评论
收藏
分享
03-18 21:24
门头沟学院 Web前端
双非本科根本找不到前端实习
咨询一下大家,是不是项目有很大问题啊,投简历有什么技巧吗?怎么投了几天了一点动静都没有
想去毕业旅行的斑马在...:
学校不是92的话,没有实习经历投不了大厂,去投中小厂,拿点实习经历
点赞
评论
收藏
分享
04-09 10:05
已编辑
南京大学 Java
字节一面
四种负载均衡策略分别做了什么,lru在缓存里怎么用,一致性哈希,分别适用于哪些场景秒杀如何实现,redis数据如何和数据库对齐redis相对于其他存储的特性,有哪些常见使用场景redis常见数据结构,hash和set的区别,set底层redis持久化是怎么做的,最新版本用的哪一种分布式redis读写如何去处理,主从数据怎么同步Java抽象类和接口区别,一个类能实现几个抽象类,几个接口,抽象类里定义的东西和接口定义的是一个含义吗,接口里定义的方法和抽象类定义的方法默认的访问范围,抽象类代理的方法可以有具体实现吗,抽象类本身的方法有具体实现吗,接口呢,抽象类可以实现接口吗Java实现线程的几种方案...
查看26道真题和解析
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
大模型Agent面试全攻略(附答题思路)
2.2W
2
...
谁都可能在说谎,但财报不会骗人
1.6W
3
...
我感觉我遇到神仙mentor了
1.1W
4
...
春招产品内卷到什么程度了
5831
5
...
字节一二三hr面 java面经(已off)
5370
6
...
秋招失利别慌,好offer不怕晚
5024
7
...
入职翼支付2年多,聊聊感受
4723
8
...
携程工作体验
4321
9
...
有了这个skill我再也没手动改过简历
3849
10
...
上线一个月了,说几句真心话
3748
创作者周榜
更多
正在热议
更多
#
Agent面试会问什么?
#
24751次浏览
931人参与
#
哪些公司一直卡在简历筛选
#
100634次浏览
311人参与
#
厦门银行科技岗值不值得投
#
18364次浏览
420人参与
#
给工作过的公司写一条大众点评,你会怎么写?
#
8326次浏览
118人参与
#
通信/硬件的薪资开多少,才值得去?
#
75797次浏览
398人参与
#
烂工作和没工作哪个更痛苦?
#
16394次浏览
249人参与
#
平台or薪资 硬件uu更看重哪个
#
166713次浏览
620人参与
#
春招至今,你收到几个面试了?
#
65712次浏览
878人参与
#
一人分享一个skill
#
6425次浏览
172人参与
#
说说你知道的学历厂
#
396585次浏览
1401人参与
#
一人说一个提前实习的好处
#
122628次浏览
715人参与
#
巨人网络求职进展汇总
#
193540次浏览
1232人参与
#
面试体验最好和最差的公司
#
19514次浏览
142人参与
#
bilibili求职进展汇总
#
189575次浏览
1089人参与
#
AI替代不了什么?
#
10919次浏览
174人参与
#
我是XXX,请攻击我最薄弱的地方
#
72058次浏览
478人参与
#
现在入门AI首先要做什么?
#
3966次浏览
95人参与
#
中国电信笔试
#
38974次浏览
342人参与
#
实习心态崩了
#
113859次浏览
623人参与
#
拼多多工作体验
#
54961次浏览
378人参与
#
我们是不是被“优绩主义”绑架了?
#
43902次浏览
538人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务