竞争激烈:米哈游大模型算法岗面经

1.请简述什么是大模型,以及它与传统模型的主要区别是什么?
2.你如何评估大模型的性能?有哪些常用的评估指标?
3.请描述一下你如何对大模型进行优化,以提高其性能和效率。
4.你是否有过使用或开发大模型的经验?请分享一个具体的案例。
5.大模型中的注意力机制是如何工作的?它在大模型中起到了什么作用?
6.大模型中的优化算法有哪些常见的选择?它们各有什么优缺点?
7.如何处理大模型训练过程中的梯度消失或梯度爆炸问题?
8.在大模型设计中,如何权衡模型的复杂度和性能?
9.面对大模型训练和推理所需的庞大计算资源,你有什么解决建议?
10.请简述你了解的大模型的主要结构特点。
11.reward bench上的reward model分哪几类?
12. reward model如何训练的,训练目标是什么?
13.dp0训练的损失函数和训练目标,dpo如何改进怎么理解大模型安全,包含哪些方面的内容?
14.指令跟随能力的评估集有什么,如何评估的?
15.阿尔法狗强化学习策略是什么?提升推理能力和指令跟随能力哪个更难, 为什么, 提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方?
16.dpo训完了一般输出长度会变化吗? 如何解决这个问题大模型训练过程学习率一般是怎么变化的, 退火阶段学习率如何变化
的?
17.在开发大模型时,当你面临推理阶段的资源需求时,你如何确保模型的可解释性和公平性?
18.谈谈你对Transformer模型的理解,以及它在自然语言处理中的应用。
19.请简述Transformer的基本结构和工作原理?
20.为什么Transformer使用位置编码(Positional Encoding)?
21.如何优化 Transformer 模型的性能?
22.Transformer在自然语言处理中有哪些应用?
23.transformer里边norm的位置在哪里,norm如何计算的多头自注意力机制的作用是什么?
24.注意力机制为什么除以根号dk, 为什么不是dk请解释什么是注意力机制,并举例说明其应用场景。
25.注意力机制是如何工作的?请简述其计算过程。
26.多头注意力机制是什么?它相比单头注意力有什么优势?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
评论
2
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务