滴滴日常实习大模型算法二面

1.八股:一个7B参数的大语言模型,在训练和推理时分别需要多少显存?影响显存占用的关键因素有哪些?
2.八股:SFT 阶段,7B 和 70B 模型的学习率设置通常有何不同?背后的原理是什么?
3.项目:DPO 训练过程中,你会重点关注哪些评估指标?为什么?
4.项目:训练一个基于 pair 对的 reward 模型,loss 函数怎么写?如果是非 pair 形式(只标注最优 response),loss 又该如何设计?
5.项目:DPO数据构造中常出现正负样本不均衡问题,你有哪些解决方案?
6.项目:用DPO缓解幻觉时,如果反而引入了新的幻觉,可能是什么原因?
7.项目:DPO中的beta参数代表什么?过大或过小会带来什么影响?
8.项目:你在微调时是否观察过不同层的梯度差异?
9.项目:不同参数高效微调方法(如 LoRA vs Adapter)在你的任务上效果对比如何?
全部评论
佬有手撕环节吗
点赞 回复 分享
发布于 12-26 21:47 山西

相关推荐

点赞 评论 收藏
分享
评论
1
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务