备战春招之百度一面
项目
GRPO相关
考察个人对SFT和GRPO的关系。
问BN和LN的区别?
为什么NLP里边是LN?
问前 layer norm 和 后 layer norm的区别?
pre-LN 恒等分支的权重较大,到深层是影响模型训练效果的主要因素,模型会变得更“宽”;post-norm因为norm(x_{t-1}+f(x_{t-1})), 恒等分支的权重会逐渐削弱,残差分支会成为主导,模型倾向于变得更“深”。
参考:https://www.zhihu.com/question/519668254/answer/2371885202
手撕编辑距离
没看到聊天框就没让写了
反问
以发论文为目标
查看27道真题和解析