算法实习面经--求好运

10.25 镁佳（北京）科技有限公司—一面14：00
1.Dropout机制
2.Self-attention中的计算方法
3.Kv/squr(t)为什么要除以squr(t)
4.为什么要有position embedding
5.如何解决decoder-attention中无法看到后面信息的问题：mask matrix
6.Bert主要用来干什么？Next sentence perdiction 和 Mask 位置填补
总体来说就是死扣transformer
编码题：
二分查找
用2个栈实现队列
10.25 镁佳（北京）科技有限公司—二面17：00
查看CPU使用情况：top(实时监控工具)
查看端口占用情况：netstat -tuln # -tuln：列出所有监听的 TCP 和 UDP 端口
显示系统内存的总量、已用量、空闲量以及缓存和缓冲区的使用情况：free -h
查看GPU使用情况：nvidia-smi
特别细致地提问上一段的经历，算法让我输入每一步骤的输入和输出
logistic回归：y=1/(1+e(wx+b) 其中y也可以表示成P(X<x)即F(x)
编码题：将列表中的0元素，其他按正常的顺序排列，提到列表前面
10.27 货拉拉——一面11：00
询问项目经历
聚类方法K means
支持向量机
对过拟合的理解，以及如何解决过拟合。
编码题：快速排序（找基准的那个排序方法）
感觉货拉拉的面试还是挺中规中矩的

全部评论

推荐最新楼层

牛家堡的牛牛

门头沟学院算法工程师

我实习也面过这家，当时HR一直说leader是清华背景，前段时间还去清华做演讲啥啥的，有种华而不实的感觉，后来鸽了

1 回复分享

发布于 2024-10-29 10:20 湖北

悠悠榴

合肥工业大学 Java

佬最后去哪里了

点赞回复分享

发布于 2024-12-07 21:18 安徽

青山_

上海交通大学 C++

多多主站商业化，目前很缺人，能聊聊嘛 ~

点赞回复分享

发布于 2024-10-29 15:52 上海

伤心的劳伦斯在吃瓜

楼主

西安交通大学算法工程师

都说发面经会有好运，祈祷让我简历过了华为或者京东吧

点赞回复分享

发布于 2024-10-27 18:52 陕西

03-16 22:38

门头沟学院 Java

客路旅行一面

首先笔试是全英文的笔试，但是在牛客上搜了一下，秋招的和暑期的笔试题目应该是一模一样的面试阶段先讲一下在实习期间干了什么事情，你有学到什么技术？你对restful的理解是什么？如何确定使用Get/Post方法？如何去发送一个restful的请求呢？包含哪些流程？Post和Put有什么区别？有用到哪些AWS的资源？用到了什么数据库？你如何设计数据库表的？你有用到k8s的哪些组件？你觉得实习的最大挑战是什么？前端的请求是如何到达后端的？http请求的内容有哪些？为什么要分库分表？分库分表的意义是什么？一定是能够提高查询效率吗？（这里被挖了个坑，后面说到如果批量查询分片键的数据也会进行全表扫描）布隆过...

点赞评论收藏

03-02 22:30

门头沟学院机器学习

AI infra 小鹏汽车实习面经

整体面试还是不错的，但是没后续了，不知道是哪里出了问题1. CPU vs GPU vs NPU优化差异，对应场景题2. 手撕CUDA编程：在 uint8 数组中找第 K 大的值3. 手撕二叉树最右节点4. 对自动驾驶领域的了解

查看4道真题和解析

点赞评论收藏

03-01 03:15

门头沟学院机器学习

网易Ai infra 校招面经

查看18道真题和解析

点赞评论收藏

03-03 10:35

门头沟学院机器学习

AI infra 人才库面经总结

ai infra八股：1- 给定训练所需的Tokens，怎么估计模型训练所需的完整时间？2- Prefill和Decode阶段各有什么优化技术？3- 什么是Two-batch overlap，什么场景Two-batch overlap是负优化？4- megatron-lm中通信优化怎么做？5- 多机PD分离会有KV cache transfer开销，为什么还要做PD分离？6- muon和AdamW的pretrain和posttrain为什么不能混用？7- 如何看待跨SM的PD分离和AF分离？8- cuda的global memory和shared memory访存分别需要注意什么？9- deepseek-V3的优化点10- deepseek-DSA和NSA，MoBA的区别11- nccl中的通信源语有哪些？all-reduce参数更新一次参数需要几次通信？12- 在小数据量场景使用NVSHMEM，每个GPU直接读取其他GPU的数据，在本地reduce，相比ring all-reduce的好处13- 训练时如何设计超长序列下的并行14- 将Ampere架构的算子适配到Hopper架构的卡上，你会对哪些地方进行升级改造？

在改简历的大卫很认真：1. 训练时间估算时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率) 总FLOPs ≈ 6 × 参数 × Token数再除以单卡算力、并行数、利用率，就是时长。 2. Prefill / Decode 优化 - Prefill：长序列并行、FlashAttention、分块、算子融合、向量化 - Decode：KV cache、连续Batch、PagedAttention、Speculative Decoding 3. Two-batch overlap - 同时跑两个微批次，计算/通信重叠 - 负优化：计算太快、通信太小、显存不够、调度 overhead 盖过收益 4. Megatron-LM 通信优化 TP+PP+DP三维并行；重叠通信计算；分桶AllReduce；激活重计算；减少跨节点通信量。 5. PD分离（PP+DP）为什么要KV transfer 为了流水线+数据并行一起用，提高吞吐；虽然有KV拷贝成本，但整体能堆更大Batch、更高利用率。 6. MuON / AdamW 不能混用优化器状态、动量、更新逻辑完全不兼容；预训练用一个，微调换另一个，状态不匹配，直接训崩/不收敛。 7. 跨SM PD / AF 分离核心：拆任务、提高 occupancy、隐藏延迟； PD：并行度拆分更干净； AF：聚焦注意力/前馈访存与计算重叠；看模型结构、Kernel瓶颈选。 8. CUDA Global / Shared 注意 - Global：对齐、连续访问、合并访存、少随机读、用L2缓存 - Shared：防bank conflict、分块复用、同步_sync、容量控制 9. DeepSeek-V3 优化点高效架构+长序列支持；优化Attention/FFN计算；更好的并行策略；推理侧低延迟高吞吐。 10. DeepSeek-DSA/NSA/MoBA - DSA：领域稀疏注意力 - NSA：神经稀疏注意力 - MoBA：混合专家注意力核心都是稀疏化、省计算、扩容量。 11. NCCL 原语 & AllReduce 次数原语：Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce Ring AllReduce：2次（ReduceScatter + AllGather）。 12. 小数据量 NVSHMEM vs Ring AllReduce 少了Ring多跳延迟；直接GPU-GPU读+本地Reduce；小数据下延迟更低、更简单。 13. 超长序列训练并行 TP+PP+CP（上下文并行）+ ZeRO；分块Attention、分块FFN；激活重算+KV复用；控制通信量。 14. Ampere → Hopper 算子升级 - 用TF32、FP8、新指令 - 适配TMA、异步拷贝 - 优化Warp调度、 occupancy - 重写Attention/MatMul，用Hopper专属优化

查看14道真题和解析

点赞评论收藏