AI infra应届春招

📍面试公司:京东infra一面(更新2026/03/25已挂)
🕐面试时间:2026/03/23
💻面试岗位:ai infra
❓面试问题:

零、查户口,问我啥时候毕业,哪里人,哪个专业,手头上有没有offer,面过其他什么公司?(简历上有但是会问)
一、项目拷打(十分钟)
二、八股(二十五分钟)
    1、讲一下大模型推理优化有些方法?                                      ——(这个问的很宽泛,可以从各方面回答)
    2、你刚刚说到有pageattention,这个具体是什么?               ——(上个问题的追问)
    3、Flashattention为什么能加速,计算过程是什么?           
    4、你有讲到PD分离机制,那么如何实现调度队列?
    5、PD分离的时候chunk prefill是指同一个请求的PD插入吗?      ——(这里回答说A的prefill chunk过程中插入B的
                                                                                                               decoder,而不是A的decoder)
    6、C++的多态如何实现?
    7、你刚刚说的虚函数是怎么实现多态的,请具体说说看?
    8、你说了虚函数表,那么虚函数表里面的函数顺序是怎么样的?是按照声明顺序吗?   ——(这个问题我没答好)

三、手撕(快排)(十五分钟)
    没写出来😭,其他排序都会写,就这个忘了,我又炸了。。。。。。/(ㄒoㄒ)/~~
    
四、反问
    1、公式一问(我今天表现怎么样?对我有什么建议吗?) 
        答:整体表现还可以,快排写不出来很不应该,我们这边很重视这个代码能力。(意思是寄/(ㄒoㄒ)/~~)
    2、他都这么说了,我也不好意思再问下去了。

🙌面试感想:
大概是寄了,就当积攒经验了,还有26届的同学还在找工作吗,可以交流交流看看。

#发面经攒人品#
全部评论
我投的后端没有手撕,全是问的项目相关的问题,还有agent之类的
1 回复 分享
发布于 03-23 19:16 四川

相关推荐

在改简历的大卫很认真:1. 训练时间估算 时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数 再除以单卡算力、并行数、利用率,就是时长。 ​ 2. Prefill / Decode 优化 ​ - Prefill:长序列并行、FlashAttention、分块、算子融合、向量化 ​ - Decode:KV cache、连续Batch、PagedAttention、Speculative Decoding ​ 3. Two-batch overlap ​ - 同时跑两个微批次,计算/通信重叠 ​ - 负优化:计算太快、通信太小、显存不够、调度 overhead 盖过收益 ​ 4. Megatron-LM 通信优化 TP+PP+DP三维并行; 重叠通信计算; 分桶AllReduce; 激活重计算; 减少跨节点通信量。 ​ 5. PD分离(PP+DP)为什么要KV transfer 为了流水线+数据并行一起用,提高吞吐; 虽然有KV拷贝成本,但整体能堆更大Batch、更高利用率。 ​ 6. MuON / AdamW 不能混用 优化器状态、动量、更新逻辑完全不兼容; 预训练用一个,微调换另一个,状态不匹配,直接训崩/不收敛。 ​ 7. 跨SM PD / AF 分离 核心:拆任务、提高 occupancy、隐藏延迟; PD:并行度拆分更干净; AF:聚焦注意力/前馈访存与计算重叠; 看模型结构、Kernel瓶颈选。 ​ 8. CUDA Global / Shared 注意 ​ - Global:对齐、连续访问、合并访存、少随机读、用L2缓存 ​ - Shared:防bank conflict、分块复用、同步_sync、容量控制 ​ 9. DeepSeek-V3 优化点 高效架构+长序列支持; 优化Attention/FFN计算; 更好的并行策略; 推理侧低延迟高吞吐。 ​ 10. DeepSeek-DSA/NSA/MoBA ​ - DSA:领域稀疏注意力 ​ - NSA:神经稀疏注意力 ​ - MoBA:混合专家注意力 核心都是稀疏化、省计算、扩容量。 ​ 11. NCCL 原语 & AllReduce 次数 原语:Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce:2次(ReduceScatter + AllGather)。 ​ 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟; 直接GPU-GPU读+本地Reduce; 小数据下延迟更低、更简单。 ​ 13. 超长序列训练并行 TP+PP+CP(上下文并行)+ ZeRO; 分块Attention、分块FFN; 激活重算+KV复用; 控制通信量。 ​ 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 ​ - 适配TMA、异步拷贝 ​ - 优化Warp调度、 occupancy ​ - 重写Attention/MatMul,用Hopper专属优化
查看14道真题和解析
点赞 评论 收藏
分享
评论
2
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务