intel实习一面面经

1.4号:三场一起，笔试(手撕？)+面试1+面试2一场30分钟
笔试是给三个题，做完发到聊天框里
题目1:给一个字符串，相邻且相同的两个字符串消除，一直操作下去得到最后的，秒
题目2:求树的最小深度，秒
题目3:不重复子整数序列等于目标值，秒
面试1:
问对linux了解一些命令什么的
计网tcp udp区别
三次握手
七层模型
有没有做过Webserver类似的，我说做了一个简单rpc？不知道类不类似
深挖实习内容，流程，做了啥，怎么做
面试2:
比赛相关
继续深挖实习
问项目
整体来说非常轻松，感觉面试官水平很高，听他们说话的语气都能感觉到真的安逸啊

全部评论

推荐最新楼层

就图个offer

门头沟学院 C++

恭喜😁intel和nvidia招人很少，进面就跟抽奖一样，但面了基本就进了

2 回复分享

发布于 2024-01-13 14:43 北京

牛客117194979号

复旦大学 Java

问下大佬投完简历大概多久约面哇😺

1 回复分享

发布于 2024-01-15 12:48 上海

iamjared2024

门头沟学院 C++

请问佬后面有收到任何通知嘛是不是没有通知就默认挂了

点赞回复分享

发布于 2024-05-21 21:45 安徽

牛客978617443号

上海杉达学院 C++

lz 后面还有后续吗？

点赞回复分享

发布于 2024-03-29 08:05 上海

02-12 16:47

武汉大学 C++

C++/CUDA/AI-infra面试经验总结

我自己在搞 AI Infra/HPC，有两个一直在维护的仓库：一个是用 C++/CUDA 从零写的深度学习框架：OriginDL另一个是工作中一点点积累下来的 AI Infra/HPC 知识地图：ai‑infra‑hpc链接先丢这儿，感兴趣可以先 star 了再说：https://github.com/jinbooooom/OriginDLhttps://github.com/jinbooooom/ai-infra-hpc如果你是刚开始找工作，或者准备投大模型 AI Infra/HPC 方向的岗位，可以把下面这份当成一个「复习清单」：面试高频会围着哪些点打转、我当时是怎么系统整理的、以及怎么用...

面试问题记录

点赞评论收藏

不愿透露姓名的神秘牛友

03-04 16:50

英伟达——自动驾驶软件开发实习生一面面经

25分钟 1.自我介绍2.介绍实习经历中opencv的处理过程，用过哪些函数？有没有了解过底层的逻辑？3.PID在进行调试的时候，你是遵循什么原则，能不能具体的解释一下过程？如果说响应速度很慢，震荡很大，你会先调哪个值？4.ROS架构中有了解什么机制吗？ROS通信机制在话题收发的时候是属于同步还是异步？5.TCP/UDP协议中，你为什么要选UDP协议？如何避免丢包？6.了解线程同步机制吗？你了解哪些线程同步机制？有没有写过线程池？7.智能指针用过哪些？unique_ptr传入函数的时候应该怎么做？move()底层了解吗？shared_ptr主要用来做什么？8.了解cuda编程吗？9.共享内存涉及到同步机制还是互斥？为什么用互斥？10.C++的模板了解吗？模板定义在hpp里还是cpp文件里？面试官表示更想要计算机专业的学生，无后续

查看10道真题和解析

点赞评论收藏

02-28 21:15

门头沟学院机器学习

美团北斗AI infra校招面经

攒人品中～ 1.介绍一下Transformer的架构，和传统RNN循环神经网络相比有何优势2.Transformer中参数都分布在哪里，参数量最大的是哪部分?计算量最大的是哪部分，为什么?3.了解GPU的cudacore、Tensorcore吗，你常用的GPU有哪些，他们的显存和显存带宽有多大?4.讲讲大模型的量化，讲量化算子5.详细讲pd分离6. 详细讲paged atten7.LC25题:K个一组翻转链表8.写cuda算子:前缀和。实现一个base的，讲优化方法9.写cuda算子gemm:实现一个base的，讲优化方法

查看9道真题和解析

点赞评论收藏

03-03 10:35

门头沟学院机器学习

AI infra 人才库面经总结

ai infra八股：1- 给定训练所需的Tokens，怎么估计模型训练所需的完整时间？2- Prefill和Decode阶段各有什么优化技术？3- 什么是Two-batch overlap，什么场景Two-batch overlap是负优化？4- megatron-lm中通信优化怎么做？5- 多机PD分离会有KV cache transfer开销，为什么还要做PD分离？6- muon和AdamW的pretrain和posttrain为什么不能混用？7- 如何看待跨SM的PD分离和AF分离？8- cuda的global memory和shared memory访存分别需要注意什么？9- deepseek-V3的优化点10- deepseek-DSA和NSA，MoBA的区别11- nccl中的通信源语有哪些？all-reduce参数更新一次参数需要几次通信？12- 在小数据量场景使用NVSHMEM，每个GPU直接读取其他GPU的数据，在本地reduce，相比ring all-reduce的好处13- 训练时如何设计超长序列下的并行14- 将Ampere架构的算子适配到Hopper架构的卡上，你会对哪些地方进行升级改造？

在改简历的大卫很认真：1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

查看14道真题和解析

点赞评论收藏