小米大模型算法实习面经分享 攒人品中
发一下问题给大家参考,攒攒人品!
1.实习拷打
2.介绍项目
3.微调方法(除了Lora还有哪些)
4.介绍Lora原理,AB矩阵如何初始化,为什么
5.ppo如何计算优势,目前主流的计算优势的方法,Grpo是如何计算优势的
6.ppo损失有几部分,clip机制的原因
7.dpo损失中有没有kl散度思想,如何实现的,损失怎么得出来的
8.deepseed各个阶段的原理,除了他还有哪些节省显存的技术
9.如何解决奖励作弊
10.知道哪些推理框架
手撕改进后的dpo损失
1.实习拷打
2.介绍项目
3.微调方法(除了Lora还有哪些)
4.介绍Lora原理,AB矩阵如何初始化,为什么
5.ppo如何计算优势,目前主流的计算优势的方法,Grpo是如何计算优势的
6.ppo损失有几部分,clip机制的原因
7.dpo损失中有没有kl散度思想,如何实现的,损失怎么得出来的
8.deepseed各个阶段的原理,除了他还有哪些节省显存的技术
9.如何解决奖励作弊
10.知道哪些推理框架
手撕改进后的dpo损失
全部评论
相关推荐
查看8道真题和解析