CUDA面经

实习和秋招都面了一些高性能计算的岗,分享一点被问过的cuda八股
SIMT是什么
occupancy和什么有关,怎么控制
bank conflict粒度
GEMM分块大小受什么影响
float4读写gmem为什么更快
block能否被调度到不同sm上
常用卡的cache是多大
divergency对性能的影响
nvidia gpu的指令级并行
手撕矩阵转置
手撕向量外积
全部评论
大佬,这个赛道很卷吗?
3 回复 分享
发布于 2023-09-21 15:00 上海
市面上会cuda的应该很少吧,感觉lz挺好找工作的?
2 回复 分享
发布于 2023-09-08 14:13 上海
感谢楼主分享,所以float4为什么会更快呀,这点一直挺困惑的
2 回复 分享
发布于 2023-09-04 12:59 上海
大佬点技能树的时候,会学tvm推理引擎,训练框架这些吗
1 回复 分享
发布于 2023-09-17 10:06 山西
楼主拿到哪家的offer了吗
1 回复 分享
发布于 2023-09-04 14:03 广东
佬最后去哪了?
点赞 回复 分享
发布于 2025-04-23 17:24 安徽
mark
点赞 回复 分享
发布于 2024-05-13 15:05 上海
m
点赞 回复 分享
发布于 2023-09-06 21:37 江苏
请问下大佬,面高性能计算岗,cuda的话怎样的项目算是比较有含金量
点赞 回复 分享
发布于 2023-09-06 00:15 广东

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
评论
22
227
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务