蚂蚁大模型面经

【一面】
1.介绍种 Attention ( MHA , MQA , GQA )的区别
2.分别讲一下 Dense 模型和 MoE 模型以及二者的区别
3.讲一下 MoE 的路由机制是如何做的?
4.介绍 RAG 项目,讲一下 RAG 项目的亮点
5.是否做过意图识别?如果要做意图识别,可以怎么实现?
6.讲一下BM25算法原理
7.讲一下 DPO , PPO , GRPO 的原理和区别,写一下 DPO loss 函数
8.代码:lc15三数之和
【二面】
1. vLLM 中使用的技术是否熟悉(如 Paged Atte ntion 、 KV Cache )?
2.了解加速推理框架 DeepSpeed 吗?
3.MoE 模型专家的负载不均衡问题如何解决?
4.如何通过修改损失函数来解决负载均衡问题?
5. SFT 使用的数据集,使用了多少张卡? SFT 训练多久?
6.微调项目是如何模型选型
7.如何做微调的?直接用 PEFT 库,还是用 LLa ma Factory 做的?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

12-12 09:10
门头沟学院 Java
一面: 1. 自我介绍2. 介绍两个项目中感觉比较有技术含量的点(防止超额报名,还有滑动窗口限流)3. 活动报名场景,如果一天有几万个人报名怎么办,一小时几万人呢,可能想问redis的大key问题4. redis单线程为啥性能好,引出了IO多路复用模型的select、poll、epoll,为什么zset用跳表不用B+树或B树,跳表为啥性能好,追问为啥单线程而不是多线程5. 假设想做一个排行榜,一个按分数排序,如果分数相同了按照报名时间排序,1万个数据里面想要找到top10应该怎么设计6. redis有哪些数据类型,然后redis 的 List 类型做一个队列应该怎么做呢7. zset里面存报名数据应不应该清除,什么时候清呢?8. zSet与MySQL之间通过RocketMQ发数据,RocketMQ有持久化机制和重试机制,为什么还要有对账机制9. InnoDB有个AB联合索引,有个查询语句select B from 这个表 where A = 1,走不走索引,回不回表,你觉得一定会走索引吗10. 还是AB联合索引,update A = 100 where B = 100,这条语句有没有什么问题?11. 如果有个AService、里面有个方法A,方法B都有@Transactional注解,C需要引用A和B方法,事务会不会失效?12. CAS 相对于直接加锁有什么好处?13. 策略模式和状态模式最大的区别什么?14. 接口是个抽象,咱们在使用接口的时候都需要自己写个实现类去实现接口,然后重写调用实现类才能执行逻辑,Mybatis为啥只有Mapper接口和XML就可以而不用写具体实现类的逻辑?15. 为啥用了RocketMQ而不是Kafka16. 怎么保证RocketMQ不丢失消息17. 假设现在有个线程池,核心线程数 2个,最大线程数100,阻塞队列100,来了100个任务,每个任务执行时间1s,多长时间执行完(50秒),那200个任务呢18. 力扣92的反转链表II(10分钟没写完)二面(主管面):1.自我介绍2.项目中认为的难点3.项目做的背景是啥 为啥要做这个项目4.最近学了什么5.了不了解大模型,Spring AI之类的6. 兴趣爱好 最有成就感的事 能体现最有毅力的事是啥之类的
查看28道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务