算法实习面经--求好运
10.25 镁佳(北京)科技有限公司—一面14:00
1.Dropout机制
2.Self-attention中的计算方法
3.Kv/squr(t)为什么要除以squr(t)
4.为什么要有position embedding
5.如何解决decoder-attention中无法看到后面信息的问题:mask matrix
6.Bert主要用来干什么?Next sentence perdiction 和 Mask 位置填补
总体来说就是死扣transformer
编码题:
二分查找
用2个栈实现队列
10.25 镁佳(北京)科技有限公司—二面17:00
查看CPU使用情况:top(实时监控工具)
查看端口占用情况:netstat -tuln # -tuln:列出所有监听的 TCP 和 UDP 端口
显示系统内存的总量、已用量、空闲量以及缓存和缓冲区的使用情况:free -h
查看GPU使用情况:nvidia-smi
特别细致地提问上一段的经历,算法让我输入每一步骤的输入和输出
logistic回归:y=1/(1+e(wx+b) 其中y也可以表示成P(X<x)即F(x)
编码题:将列表中的0元素,其他按正常的顺序排列,提到列表前面
10.27 货拉拉——一面11:00
询问项目经历
聚类方法K means
支持向量机
对过拟合的理解,以及如何解决过拟合。
编码题:快速排序(找基准的那个排序方法)
感觉货拉拉的面试还是挺中规中矩的
1.Dropout机制
2.Self-attention中的计算方法
3.Kv/squr(t)为什么要除以squr(t)
4.为什么要有position embedding
5.如何解决decoder-attention中无法看到后面信息的问题:mask matrix
6.Bert主要用来干什么?Next sentence perdiction 和 Mask 位置填补
总体来说就是死扣transformer
编码题:
二分查找
用2个栈实现队列
10.25 镁佳(北京)科技有限公司—二面17:00
查看CPU使用情况:top(实时监控工具)
查看端口占用情况:netstat -tuln # -tuln:列出所有监听的 TCP 和 UDP 端口
显示系统内存的总量、已用量、空闲量以及缓存和缓冲区的使用情况:free -h
查看GPU使用情况:nvidia-smi
特别细致地提问上一段的经历,算法让我输入每一步骤的输入和输出
logistic回归:y=1/(1+e(wx+b) 其中y也可以表示成P(X<x)即F(x)
编码题:将列表中的0元素,其他按正常的顺序排列,提到列表前面
10.27 货拉拉——一面11:00
询问项目经历
聚类方法K means
支持向量机
对过拟合的理解,以及如何解决过拟合。
编码题:快速排序(找基准的那个排序方法)
感觉货拉拉的面试还是挺中规中矩的
全部评论
我实习也面过这家,当时HR一直说leader是清华背景,前段时间还去清华做演讲啥啥的,有种华而不实的感觉,后来鸽了
佬最后去哪里了
多多主站商业化,目前很缺人,能聊聊嘛 ~
都说发面经会有好运,祈祷让我简历过了华为或者京东吧
相关推荐
03-03 10:35
门头沟学院 机器学习 在改简历的大卫很认真:1. 训练时间估算
时间 ∝ 总FLOPs / (算力FP8/FP16 × 利用率)
总FLOPs ≈ 6 × 参数 × Token数
再除以单卡算力、并行数、利用率,就是时长。
2. Prefill / Decode 优化
- Prefill:长序列并行、FlashAttention、分块、算子融合、向量化
- Decode:KV cache、连续Batch、PagedAttention、Speculative Decoding
3. Two-batch overlap
- 同时跑两个微批次,计算/通信重叠
- 负优化:计算太快、通信太小、显存不够、调度 overhead 盖过收益
4. Megatron-LM 通信优化
TP+PP+DP三维并行;
重叠通信计算;
分桶AllReduce;
激活重计算;
减少跨节点通信量。
5. PD分离(PP+DP)为什么要KV transfer
为了流水线+数据并行一起用,提高吞吐;
虽然有KV拷贝成本,但整体能堆更大Batch、更高利用率。
6. MuON / AdamW 不能混用
优化器状态、动量、更新逻辑完全不兼容;
预训练用一个,微调换另一个,状态不匹配,直接训崩/不收敛。
7. 跨SM PD / AF 分离
核心:拆任务、提高 occupancy、隐藏延迟;
PD:并行度拆分更干净;
AF:聚焦注意力/前馈访存与计算重叠;
看模型结构、Kernel瓶颈选。
8. CUDA Global / Shared 注意
- Global:对齐、连续访问、合并访存、少随机读、用L2缓存
- Shared:防bank conflict、分块复用、同步_sync、容量控制
9. DeepSeek-V3 优化点
高效架构+长序列支持;
优化Attention/FFN计算;
更好的并行策略;
推理侧低延迟高吞吐。
10. DeepSeek-DSA/NSA/MoBA
- DSA:领域稀疏注意力
- NSA:神经稀疏注意力
- MoBA:混合专家注意力
核心都是稀疏化、省计算、扩容量。
11. NCCL 原语 & AllReduce 次数
原语:Send/Recv、Broadcast、Reduce、AllGather、ReduceScatter、AllReduce
Ring AllReduce:2次(ReduceScatter + AllGather)。
12. 小数据量 NVSHMEM vs Ring AllReduce
少了Ring多跳延迟;
直接GPU-GPU读+本地Reduce;
小数据下延迟更低、更简单。
13. 超长序列训练并行
TP+PP+CP(上下文并行)+ ZeRO;
分块Attention、分块FFN;
激活重算+KV复用;
控制通信量。
14. Ampere → Hopper 算子升级
- 用TF32、FP8、新指令
- 适配TMA、异步拷贝
- 优化Warp调度、 occupancy
- 重写Attention/MatMul,用Hopper专属优化
查看14道真题和解析 点赞 评论 收藏
分享
查看12道真题和解析 点赞 评论 收藏
分享