备战春招之百度一面
项目
GRPO相关
考察个人对SFT和GRPO的关系。
问BN和LN的区别?
为什么NLP里边是LN?
问前 layer norm 和 后 layer norm的区别?
pre-LN 恒等分支的方差变化累积,到深层是影响模型训练效果的主要因素,f(norm(x))分支因为方差稳定,会成为不重要的参数,到深层之后会变成
参考:https://www.zhihu.com/question/519668254/answer/2371885202
手撕编辑距离
没看到聊天框就没让写了
反问
以发论文为目标