AI infra应届春招

📍面试公司：京东infra一面（更新2026/03/25已挂）
🕐面试时间：2026/03/23
💻面试岗位：ai infra
❓面试问题：

零、查户口，问我啥时候毕业，哪里人，哪个专业，手头上有没有offer，面过其他什么公司？（简历上有但是会问）
一、项目拷打（十分钟）
二、八股（二十五分钟）
    1、讲一下大模型推理优化有些方法？                                      ——（这个问的很宽泛，可以从各方面回答）
    2、你刚刚说到有pageattention，这个具体是什么？               ——（上个问题的追问）
    3、Flashattention为什么能加速，计算过程是什么？
    4、你有讲到PD分离机制，那么如何实现调度队列？
    5、PD分离的时候chunk prefill是指同一个请求的PD插入吗？      ——（这里回答说A的prefill chunk过程中插入B的
                                                                                                               decoder，而不是A的decoder）
    6、C++的多态如何实现？
    7、你刚刚说的虚函数是怎么实现多态的，请具体说说看？
    8、你说了虚函数表，那么虚函数表里面的函数顺序是怎么样的？是按照声明顺序吗？   ——（这个问题我没答好）

三、手撕（快排）（十五分钟）
    没写出来😭，其他排序都会写，就这个忘了，我又炸了。。。。。。/(ㄒoㄒ)/~~

四、反问
    1、公式一问（我今天表现怎么样？对我有什么建议吗？）
        答：整体表现还可以，快排写不出来很不应该，我们这边很重视这个代码能力。（意思是寄/(ㄒoㄒ)/~~）
    2、他都这么说了，我也不好意思再问下去了。

🙌面试感想：
大概是寄了，就当积攒经验了，还有26届的同学还在找工作吗，可以交流交流看看。

#发面经攒人品#

全部评论

推荐最新楼层

牛客737124484号

电子科技大学 Java

我投的后端没有手撕，全是问的项目相关的问题，还有agent之类的

1 回复分享

发布于 03-23 19:16 四川

03-13 13:58

门头沟学院内容运营

算法太卷了？AI基础设施工程师可能会成为你的新机会

一天一个 AI 岗位解析，今天来聊聊——AI训推框架研发工程师（AI Infra）如果说算法工程师是在让模型更聪明，那这个岗位就是👉 让大模型能稳定、高效、低成本地跑在业务里。不直接写业务逻辑，也不用直接和用户打交道，但是所有AI产品都离不开他，是实打实的“基建大神”。无论是 AI Agent、AI搜索、AI分身，背后都离不开训练与推理框架的支撑。一、这个岗位平时在做什么这个岗位的工作核心可以总结为三块：1️⃣ 大模型训练 & 推理框架研发首先你需要参与公司自研的 AI 训推框架开发，比如：大模型推理引擎优化训练框架性能提升推理吞吐与延迟优化巧妇难为无米之炊，得先开发框架才能后续推进...

AI求职实录

点赞评论收藏

03-04 05:20

门头沟学院机器学习

快手实习 Ai Infra一面面经

祝大家都能拿到满意的Offer！1.实习介绍2.对岗位的理解3.Qwen模型占了多少内存，在上一段实习中如何部署的4.介绍模型量化和Flash attention，实际优化效果如何5.介绍Tensorrt，底层方面如何加速6.是否了解vllm框架，追问PagedAttention7.介绍实验室项目，模型参数量计算量怎么算的8.Pytorch核心的基础功能是什么，有试过Pytorch对GPU进行管理吗9.模型训练和推理在资源、消耗上的区别，是否了解模型训练过程中性能优化的手段10.GPU和CUDA有了解吗，GPU基础的物理执行单元是什么11.手撕力扣hot100：将有序数组转化为二叉搜索树

查看11道真题和解析

点赞评论收藏

03-28 08:56

浙江大学算法工程师

C++ 八股文速通

一、语言本质：C++ 是什么C++ = 多范式语言支持：面向过程（C 风格）面向对象（class / inheritance / polymorphism）泛型编程（template）元编程（constexpr / TMP）核心思想：零成本抽象（Zero-overhead abstraction）—— 你不用的功能不会带来运行时开销二、内存模型与对象生命周期1. 内存分区典型程序内存布局：栈（stack）：局部变量，自动分配释放堆（heap）：动态分配（new / malloc）静态区（data / bss）：全局变量、static变量常量区：字符串常量等代码区（text）2. new / d...

点赞评论收藏

03-03 10:35

门头沟学院机器学习

AI infra 人才库面经总结

ai infra八股：1- 给定训练所需的Tokens，怎么估计模型训练所需的完整时间？2- Prefill和Decode阶段各有什么优化技术？3- 什么是Two-batch overlap，什么场景Two-batch overlap是负优化？4- megatron-lm中通信优化怎么做？5- 多机PD分离会有KV cache transfer开销，为什么还要做PD分离？6- muon和AdamW的pretrain和posttrain为什么不能混用？7- 如何看待跨SM的PD分离和AF分离？8- cuda的global memory和shared memory访存分别需要注意什么？9- deepseek-V3的优化点10- deepseek-DSA和NSA，MoBA的区别11- nccl中的通信源语有哪些？all-reduce参数更新一次参数需要几次通信？12- 在小数据量场景使用NVSHMEM，每个GPU直接读取其他GPU的数据，在本地reduce，相比ring all-reduce的好处13- 训练时如何设计超长序列下的并行14- 将Ampere架构的算子适配到Hopper架构的卡上，你会对哪些地方进行升级改造？

在改简历的大卫很认真：1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

查看14道真题和解析

点赞评论收藏