阿里通义实验室大模型算法一面面经
一面
1.先自我介绍
2.说一下 LoRA 是什么原理
3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化
4.Qwen的模型结构是怎么样的,相比于 LLaMA , DeepSeek 有什么区别
5.怎么缓解大模型的幻觉问题
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择
8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗
10.开放题:你觉得目前大模型的上限在哪里
11.代码:152.乘积最大子数组
🌟总结:整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1.先自我介绍
2.说一下 LoRA 是什么原理
3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化
4.Qwen的模型结构是怎么样的,相比于 LLaMA , DeepSeek 有什么区别
5.怎么缓解大模型的幻觉问题
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择
8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗
10.开放题:你觉得目前大模型的上限在哪里
11.代码:152.乘积最大子数组
🌟总结:整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
NOoOo0B:典型的安卓开发

点赞 评论 收藏
分享