备战春招之百度一面

项目

GRPO相关

考察个人对SFT和GRPO的关系。

问BN和LN的区别?

为什么NLP里边是LN?

问前 layer norm 和 后 layer norm的区别?

pre-LN 恒等分支的方差变化累积,到深层是影响模型训练效果的主要因素,f(norm(x))分支因为方差稳定,会成为不重要的参数,到深层之后会变成

参考:https://www.zhihu.com/question/519668254/answer/2371885202

手撕编辑距离

没看到聊天框就没让写了

反问

以发论文为目标

全部评论
哥们你好幽默啊,北理大佬offer有哪几个呀
点赞 回复 分享
发布于 昨天 20:34 上海

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务