阿里大模型算法实习一面45min

1.项目介绍
2.说一下 LoRA 是什么原理
3.了解 DeepSpeed 吗, ZeRO -1, ZeRO -2和 ZeRO -3分别做了哪些优化
4.Qwen的模型结构是怎么样的,相比于 LLaMA , DeepSeek 有什么区别
5.怎么缓解大模型的幻觉问题
6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
7.知道FP16和BF16有什么区别吗,包括FP32和INT8这些,在训练大模型的时候,应该怎么选择
8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
9.对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗
10.开放题:你觉得目前大模型的上限在哪里
11.代码:152.乘积最大子数组
全部评论

相关推荐

12-05 18:09
已编辑
广东药科大学 后端工程师
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务