腾旭混元大模型实习一面
1.自我介绍,过实习,讲论文,论文过的比较细,有说的笼统的地方面试官会实时进行询问交流
2.了解哪些大模型,简要挑一两个介绍一下,当时说了Qwen和DeepSeek,然后面试官又问了这两个有什么区别
3.接着上一问,为什么大家都开始探索 MoE架构,MoE 相比 Dense 有什么好处
4.在之前实习的时候用 LORA 微调过 Owen,于是问了有没有全量微调过,有没有对比过两者的性能表现
5.讲一下大模型训练和推理的流程,SFT和 RLHF的作用分别是什么
6.在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式
7.代码:22.括号生成
8.代码:多头自注意力
2.了解哪些大模型,简要挑一两个介绍一下,当时说了Qwen和DeepSeek,然后面试官又问了这两个有什么区别
3.接着上一问,为什么大家都开始探索 MoE架构,MoE 相比 Dense 有什么好处
4.在之前实习的时候用 LORA 微调过 Owen,于是问了有没有全量微调过,有没有对比过两者的性能表现
5.讲一下大模型训练和推理的流程,SFT和 RLHF的作用分别是什么
6.在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式
7.代码:22.括号生成
8.代码:多头自注意力
全部评论
话说这种题真的很难啊
没见过这种题
好久没做题了
手撕这种代码有啥用?
相关推荐
查看3道真题和解析