拼多多-拼越计划-一面冰经

一面
先自我介绍,开始问项目,主要是用到的模型和算法的细节和作用的理解,正常问题。
开始发散:
你项目中的超参是怎么调的,比如学习率或者优化方法,都用过哪些方法。
答:学习率从不使loss NaN的最大量级开始,随训练epoch 衰减 或 warm-up;优化方法用的RMSprop,源码中用的这个,中间尝试过用SGD和Adam,但是都训不好,由于这里面超参调整比较费时间,没做过多尝试,后面就一直用的RMSProp。
问:为什么其他优化方法用了效果不好呢?
答:可能优化空间不适合,各种优化方法各有优缺点。(我咋知道这里哪个更合适啊5555)
追问:adagrad用过没?跟SGD有何区别?
答:在sgd基础上对学习率除以了梯度的平方和累计,每个权重有其自适应的学习率,前期能加快收敛,但后面也有缺陷...
追问:SGD里面的“S”,什么意思?
答:随机,随机取样本,相当于梯度也是随机方向。(这个问题把我整麻了...求大佬帮我解释一哈) (面试官一脸疑问:“是随机吗?...”)
问:训练里面用过多卡吧?里面对梯度有啥操作?
答:用过,多卡 并行计算梯度,然后一个step对多卡梯度进行平均,然后进行梯度更新,如此往复。
追问:为什么要对多卡的梯度做平均?
答:(疑问脸(不然呢?我要哭了)不确定的语气:) 多gpu的目的不是为了提高batchsize,梯度更稳定一些,当然batchsize肯定不是越大越好,同时提高训练速度么?多卡不平均不就相当于batchsize还是很小?
追问:为什么是平均不是sum?
答:... (求大佬指教,这里应该怎么答)
#面经##拼多多##校招##计算机视觉岗#
全部评论
没有手撕代码咩⊙▽⊙
1 回复 分享
发布于 2020-08-15 13:13
老哥梯度怎么是随机呢。随机取一些样本算出来的梯度和全部样本算出来的梯度差不多,但是SGD只用少量样本,所以算起来很快。
点赞 回复 分享
发布于 2020-08-19 22:38
楼主收到二面通知了吗?
点赞 回复 分享
发布于 2020-08-18 17:37
这样看来,pdd的面试官有些憨憨啊。
点赞 回复 分享
发布于 2020-08-18 14:51
梯度有mean也有sum的吧,我觉得得看框架
点赞 回复 分享
发布于 2020-08-15 21:14
然后二面通知了吗
点赞 回复 分享
发布于 2020-08-14 19:35
stochastic gradient descent 不是随机是啥。。。
点赞 回复 分享
发布于 2020-08-14 16:22
楼主你好,请问你是实习、校招还是社招?岗位是什么?开发的话,是Java方向还是C++方向?或者其他语言方向~
点赞 回复 分享
发布于 2020-08-14 15:29

相关推荐

评论
3
18
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务