京东大模型推理算法一面二面

有点久远了,今天刚二面,总结下。
非常喜欢的面试官(一面),很帅很专业很聪明很落地很……(此处省略100字)。
二面的leader没开摄像头,never mind,我就是个渣渣,无所谓的。

记录下没答上来的点吧,大伙凑活看
1. Deepseek部署:很落地,但是具体细节忘记了,当时没及时记录下来。这个很火,建议刚入门的朋友可以多看看dpsk新技术。
2. Treereduece:不知道,只知道ringreduce
3. mooncake:新技术,答到KTransformer(CPU+GPU异构加速)的时候,面试官提到的
4. EP dispatch combine
5. Pd分离 Deepseek - dual pipline chunked prefill
6. 多卡分布式训推
7. GEMM和GEMV实现和优化上的区别
8. contiueous batching
9. chunked batching
10. Offloading:系统资源不够用的时候,卸载用不到的kvcache,或者没有被激活的专家等等
11. GPU命中率

场景:
1. 分布式部署的时候怎么去解决io bound
2. Deepseek- MoE 部署  EP TP 部署优劣对比

评价:猜你没有看过vllm源码+对分布式了解还不够,然后也说了分布式需要资源,这也是实习的意义


二面:
1. 为什么会有KVcache?为什么没有Q cache?(正好以前研究时候手撕过,设想一个你好的prompt,模型也回答你好,关键地方在于对于同样一个token,kv embedding的时候是同样的结果)
2. Cuda除了gemm还做过哪些?(没有)
3. 学这些东西用了多久?(两个月。。答长了,怕觉得我,学了这么久还这么垃圾。答短了,怕觉得我,才学这么点时间,垃圾。当然,长还是短,看他咯)
4. 以后啥安排?会定居北京吗?(回答对象、父母安排,意向是留在北京,机会多些)提到租房,问我了解京东附近房价吗?(闲聊)
5. 叫我做好准备,工作强度不低,弱弱的问了一句时间,大概是10-8,还行吧,和学习的时间比起来这都还好。
6. 说我不够底层,确实吧,还得学啊,路漫漫其修远兮,吾将上下而求索

参考连接:
为什么加速LLM推断有KV Cache而没有Q Cache? - 莫叶何竹的回答 - 知乎
https://www.zhihu.com/question/653658936/answer/107469197025

Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构 - ZHANG Mingxing的文章 - 知乎
https://zhuanlan.zhihu.com/p/705754254

讲解的非常好,不是那么有基础的同学都可以试着了解一下【KTransformers 团队分享异构推理架构思路:基于内存的大模型推理成本优化】 https://www.bilibili.com/video/BV1VNQrYGEad/?share_source=copy_web&vd_source=0b7a45021acc545f42356bf3b2bb7080
全部评论
oc了吗
点赞 回复 分享
发布于 2025-04-23 09:55 辽宁
点赞 回复 分享
发布于 2025-04-18 11:27 香港

相关推荐

📍面试公司:小米🕐面试时间:2026/03/26(二十分钟草草收场,都不想去看结果就知道挂了)💻面试岗位:大模型推理优化❓面试问题:一、自我介绍二、八股问题拷打,其实上来就是手撕1、直接在编辑器上手撕MGA,要求写出init、forward、注意力层   ——丢人现眼了,基本不会写2、追问,不会写的话讲一下整个过程,输入到输出怎么样的?         ——讲了讲transformer,注意力机制3、vllm和sglang的底层代码有看过吗?                                          ——没看过(其实看过,但我不敢说,怕叫我写)4、kv cache有哪些加载方式?                                                        ——在胡言乱语,啊这个,啊那个5、PD分离机制是干什么的?你怎么实现的?                                   ——唯一能回答的问题6、有没有用vllm部署过模型?吞吐量是多少?                                 ——脑子昏了,沉默(跑了demo,没测过)7、MTP(可能是MCP?没听清)是什么,介绍一下?                     ——我估计想问Medusa?反正我没回答,沉默。到这他问不下去了。。。三、反问两个人尴尬一笑,没什么要问的了。🙌面试感想:应该是史上最无悬念的秒挂,第一个手撕不会之后我已经晕头转向了,加上昨天熬夜到五点,到后面我都有点不好意思了,感觉在浪费他的时间,在这里跟他道个歉😀。十月到现在算上开发+infra可能面了二十多家吧,大部分都是秒挂,感觉车企infra这块的要求都特别高吧,问的特别细,就是最新的技术一定都要掌握,这一块技术迭代感觉特别特别快,光背八股面经给我感觉不太行。鼠鼠也累了,但自觉已经尽力了。也感谢这些至少还给机会面试的公司吧,有些简历直接投垃圾桶里了。(希望下一届的同学早早准备,不要像鼠鼠一样还在为春招奔波)。
查看8道真题和解析
点赞 评论 收藏
分享
评论
9
75
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务