一面 1.先自我介绍2.说一下 LoRA 是什么原理3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化4.Qwen的模型结构是怎么样的,相比于 LLaMA , DeepSeek 有什么区别5.怎么缓解大模型的幻觉问题6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗10.开放题:你觉得目前大模型的上限在哪里11.代码:152.乘积最大子数组🌟总结:整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。