首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
期待一个好结果吧
浙江大学附属中学 算法工程师
发布于上海
关注
已关注
取消关注
mark
@SweetBean:
算法岗常见面试题(六):优化器
学习资料(讲的很细很清楚):一个框架看懂优化算法之异同 SGD/AdaGrad/AdamAdam那么棒,为什么还对SGD念念不忘 (3)—— 优化算法的选择与使用策略(1条消息) 机器学习11种优化器推导过程详解(SGD,BGD,MBGD,Momentum,NAG,Adagrad,Adadelta,RMSprop,Adam,Nadma,Adamx)_日拱一两卒的博客-CSDN博客_机器学习优化器总结优化器的作用:更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化(或最大化)损失函数。发展路径:SGD -> SGDM -> NAG -> AdaGrad -> AdaDelta / RMSProp -> Adam -> Nadam -> AdamW发展阶段:没有动量:梯度下降<计算所有样本的梯度平均> / SGD<随机选择一个样本计算梯度> / 小批量随机梯度下降<每次处理一批样本>一阶动量(惯性):SGDM<梯度更新方向由历史梯度更新方向和当前梯度更新方向共同决定> / NAG<假设参数先按上一轮梯度更新方向变化,再计算当前梯度更新方向> 二阶动量(自适应学习率):AdaGrad<迄今为止所有梯度的平方和> / AdaDelta / RMSProp<只关注过去一段时间内的梯度更新频率> 一阶动量+二阶动量:Adam<SGDM+AdaDelta> / Nadam<NAG+AdaDelta> / AdamW<Adam+L2正则化>各种优化器如何选择刚入门选NAG或Adam如果模型非常稀疏,优先考虑自适应学习率的算法随机梯度下降算法的收敛速度和数据集大小的关系不大。因此,可以先用一个具有代表性的小数据集进行实验,测试一下最好的优化算法,然后通过参数搜索的方式寻找最优的训练参数。等等。BERT使用的优化器是什么?Adam相较于传统的SGD的优点是什么?(超参数一面)BERT使用的是Adam优化器。Adam结合SGDM和AdaDelta两种优化算法的优点。对梯度的一阶动量(惯性)和二阶动量(更新频率)进行综合考虑,计算出更新步长。一阶动量的优势在于他能够学习到历史梯度下降的惯性,避免受到单个样本分布的干扰,减少震荡,加快收敛;二阶动量的优势在于是自适应学习率,为参数的不同维分配不同的学习率,在模型稀疏的情况下效果很好。PS:Notion的笔记复制过来格式会变,这次就用截图吧,希望能看清楚。。。
点赞 16
评论 3
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
04-09 16:41
门头沟学院 Java
4.1字节广告客户端一面
1.skills和tools最大的区别?2.skills为什么选择用markdown文件?3.实习中比较有挑战的技术方面4.目前的token也比较烧钱的,减少token消耗方面有什么做法吗?5.url输入到渲染页面的完整流程6.https和http的区别7.为什么在国内访问不了tiktok,如何访问,原理是什么?8.http有几个方法?9.get和post的区别,哪一个更安全?10.cookie和session的区别?11.int和integer的区别?12.ArrayList和LinkedList的区别13.设计模式有了解吗?14.手撕订阅服务模式(寄)15.连续子数组求最大值oh no那个...
点赞
评论
收藏
分享
04-08 11:30
已编辑
南京林业大学 后端工程师
pdd 服务端研发实习生 一面
被拷打麻了,发面经攒人品自我介绍你对拼多多了解多少?拼多多的工作时间和工作强度你了解吗能接受吗?java中的arraylist和linkedlist有什么区别它们线程安全吗?什么时候适合用linkedlist,什么时候适合用arraylist?他们线程不安全,如果想用一个线程安全的列表,怎么办?说一下CopyonWriteArraylist、vector、Collections.synchronizedList(arrayList)的原理分别是什么讲一下synchronized的原理synchronized是公平锁吗?synchronized和ReentrantLock的区别如果想用公平锁怎么...
点赞
评论
收藏
分享
03-11 22:49
武汉大学 人工智能
力扣刷爆
是我写的代码太烂了吗
点赞
评论
收藏
分享
03-24 00:42
门头沟学院 产品经理
这是我见过最差的简历!
求各位路过的大佬锐评!
投了多少份简历才上岸
点赞
评论
收藏
分享
04-09 15:42
湖北大学 Java
sql拆解升级
一、代码审查、团队有个小伙子写的sql,真的头大 SELECT id, tenant_id, store_id, esp_org_id, ifd_id, dim_dish_id, standard_price, valuation_type, weight_type, portion_weight, first_validate_time, create_time, update_time FROM dwd_ifd_goods_standard_prices AS t WHERE t.ifd_id = 'bcc3d3e10e11ffbf6a61a3a675bf77' AND t.id = IF...
数据人的面试交流地
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
大模型Agent面试全攻略(附答题思路)
1.7W
2
...
谁都可能在说谎,但财报不会骗人
1.7W
3
...
我感觉我遇到神仙mentor了
1.0W
4
...
春招产品内卷到什么程度了
5690
5
...
字节一二三hr面 java面经(已off)
5511
6
...
秋招失利别慌,好offer不怕晚
4797
7
...
入职翼支付2年多,聊聊感受
4573
8
...
携程工作体验
4068
9
...
上线一个月了,说几句真心话
3679
10
...
有了这个skill我再也没手动改过简历
3370
创作者周榜
更多
正在热议
更多
#
Agent面试会问什么?
#
22890次浏览
814人参与
#
哪些公司一直卡在简历筛选
#
99853次浏览
302人参与
#
厦门银行科技岗值不值得投
#
18298次浏览
419人参与
#
给工作过的公司写一条大众点评,你会怎么写?
#
7799次浏览
115人参与
#
运营每日一题
#
134437次浏览
928人参与
#
烂工作和没工作哪个更痛苦?
#
15925次浏览
248人参与
#
拼多多工作体验
#
54888次浏览
373人参与
#
一人分享一个skill
#
5896次浏览
157人参与
#
我们是不是被“优绩主义”绑架了?
#
43856次浏览
538人参与
#
春招至今,你收到几个面试了?
#
62074次浏览
847人参与
#
央国企投递记录
#
187081次浏览
1710人参与
#
面试体验最好和最差的公司
#
18865次浏览
140人参与
#
机械人面试中的常问题
#
267592次浏览
3692人参与
#
你觉得专业和学校哪个对薪资影响最大
#
103996次浏览
615人参与
#
我是XXX,请攻击我最薄弱的地方
#
71942次浏览
475人参与
#
AI替代不了什么?
#
10487次浏览
161人参与
#
现在入门AI首先要做什么?
#
3807次浏览
92人参与
#
你收到了团子的OC了吗
#
1583668次浏览
11849人参与
#
神州数码信息服务股份有限公司笔试
#
3534次浏览
21人参与
#
你被哪些公司挂了?
#
172987次浏览
969人参与
#
面试尴尬现场
#
224061次浏览
868人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务