阿里云大模型算法面经

策略梯度算法的公式?

DPO和PPO的损失函数,原理,区别,DPO的探索是如何体现的?

梯度消失,梯度爆炸的根本原因?

模型过拟合的根本原因?有哪些方式缓解过拟合?

大模型分布式训练的通信协议?torchrun是做什么用的?

deepspeed的三个阶段,分配参数时,单机8卡和双机16卡,每张卡上分配的参数量是一样的吗,为什么?

大模型位置编码的方式?旋转位置编码相比于传统正余弦位置编码的区别?为什么要用旋转位置编码?

COT的训练是如何做的,数据如何构造?

预训练时packing和padding的区别,packing的优点和缺点有哪些,哪种效果好一些?

Qwen3的模型架构(详细介绍),相比于Qwen2.5有哪些改进?

同样是MoE架构,Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别?

多模态大模型的ViT,解释原理、如何训练的?

手撕:
1、一道sql题(第一次遇到大模型面试让手撕sql的)
2、手撕transformer(第一次遇到直接说手撕transformer的)
全部评论

相关推荐

2025年初,新的一年开始,我给自己暗暗打气,发誓今年一定要拿到offer。如今2025年即将结束,找工作仍然没有任何水花,如今的失意和落魄和年初信心满满的姿态形成鲜明对比,想必也是因为被社会毒打,认清现实了吧。先分享一下贴主的背景,本人女,本科末流985文科专业,后来保送到华五,成绩一直是班级第一,有过国奖,实习有多段头部大厂经历。发贴的直接原因是今天华为面试挂,在反思中有很多复杂的想法,包括对自身能力的怀疑、对面试官所提问题的不解、对大环境的无奈。贴主是一个说话温柔、不喜欢咄咄逼人、有点社恐的人(基本上算是人们眼中对小女生的刻板印象,所以在历次群面中基本全挂(看到大家争抢当leader、t...
在找内推的小虾米:感觉这一段经历和我好像啊,前段时间面了很多车企,面试项目经历各种被拷打,大多数都没过一面,最有希望拿offer的一个终面挂了把我干破防了,打电话给爸妈哭了一个多小时才缓过来。我也开始否定自己,否定自己的一切,包括性格,能力,成长经历。。。最后面了深圳的某家公司,面试官人都挺友好,提的问题有深度但找到切入点 ,最后hr也按岗位最高的标准给的offer,我才发现自己并没有这么不堪,只是我的能力和经验和之前的岗位要求不那么符合而已。帖主一定不要灰心,招聘的窗口期还有很长很长,保持自信扬长避短,一定有企业能发现你的闪光点,祝好。
我的求职进度条
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务