小米大模型算法实习面经分享 攒人品中

发一下问题给大家参考,攒攒人品!
1.实习拷打
2.介绍项目
3.微调方法(除了Lora还有哪些)
4.介绍Lora原理,AB矩阵如何初始化,为什么
5.ppo如何计算优势,目前主流的计算优势的方法,Grpo是如何计算优势的
6.ppo损失有几部分,clip机制的原因
7.dpo损失中有没有kl散度思想,如何实现的,损失怎么得出来的
8.deepseed各个阶段的原理,除了他还有哪些节省显存的技术
9.如何解决奖励作弊
10.知道哪些推理框架
手撕改进后的dpo损失
全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务