蚂蚁大模型面经
【一面】
1.介绍种 Attention ( MHA , MQA , GQA )的区别
2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别
3.讲一下 MoE 的路由机制是如何做的?
4.介绍 RAG 项目,讲一下 RAG 项目的亮点
5.是否做过意图识别?如果要做意图识别,可以怎么实现?
6.讲一下BM25算法原理
7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数
8.代码:lc15三数之和
【二面】
1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?
2.了解加速推理框架 DeepSpeed 吗?
3.MoE 模型专家的负载不均衡问题如何解决?
4.如何通过修改损失函数来解决负载均衡问题?
5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?
6.微调项目是如何模型选型
7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1.介绍种 Attention ( MHA , MQA , GQA )的区别
2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别
3.讲一下 MoE 的路由机制是如何做的?
4.介绍 RAG 项目,讲一下 RAG 项目的亮点
5.是否做过意图识别?如果要做意图识别,可以怎么实现?
6.讲一下BM25算法原理
7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数
8.代码:lc15三数之和
【二面】
1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?
2.了解加速推理框架 DeepSpeed 吗?
3.MoE 模型专家的负载不均衡问题如何解决?
4.如何通过修改损失函数来解决负载均衡问题?
5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?
6.微调项目是如何模型选型
7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
查看1道真题和解析 点赞 评论 收藏
分享
12-08 22:29
门头沟学院 Java 点赞 评论 收藏
分享

