寄了的秋招侠很靠谱

2023-09-01 01:01 浙江大学 C++

关注

CUDA面经

实习和秋招都面了一些高性能计算的岗，分享一点被问过的cuda八股
SIMT是什么
occupancy和什么有关，怎么控制
bank conflict粒度
GEMM分块大小受什么影响
float4读写gmem为什么更快
block能否被调度到不同sm上
常用卡的cache是多大
divergency对性能的影响
nvidia gpu的指令级并行
手撕矩阵转置
手撕向量外积

全部评论

推荐最新楼层

牛客978617443号

上海杉达学院 C++

大佬，这个赛道很卷吗？

3 回复分享

发布于 2023-09-21 15:00 上海

牛客671730289号

上海交通大学算法工程师

市面上会cuda的应该很少吧，感觉lz挺好找工作的？

2 回复分享

发布于 2023-09-08 14:13 上海

复旦大学 C++

感谢楼主分享，所以float4为什么会更快呀，这点一直挺困惑的

2 回复分享

发布于 2023-09-04 12:59 上海

门头沟学院 C++

大佬点技能树的时候，会学tvm推理引擎，训练框架这些吗

1 回复分享

发布于 2023-09-17 10:06 山西

无聊的修勾正在卷

门头沟学院 C++

楼主拿到哪家的offer了吗

1 回复分享

发布于 2023-09-04 14:03 广东

门头沟学院 C++

佬最后去哪了？

点赞回复分享

发布于 2025-04-23 17:24 安徽

厦门大学算法工程师

mark

点赞回复分享

发布于 2024-05-13 15:05 上海

拒绝996的鲸鱼很理智

东南大学 C++

m

点赞回复分享

发布于 2023-09-06 21:37 江苏

能不能给我个offer

广东茂名幼儿师范专科学校算法工程师

请问下大佬，面高性能计算岗，cuda的话怎样的项目算是比较有含金量

点赞回复分享

发布于 2023-09-06 00:15 广东

04-09 18:23

湖南农业大学产品经理

AI面试官正在筛选你：简历怎么写才能“活”到真人面？

兄弟们，我先说个事。上周跟一个去年进字节的学长吃饭，他给我看了他们内部的一个文档——第七代AI面试官的评分细则。不是网上流传的那种“注意仪表”“保持微笑”的废话，是真的代码层面的考察逻辑。看完我后背发凉。你知道现在大厂技术岗的简历筛选和初面，已经变成什么样了吗？AI先筛简历，然后AI面试官直接跑你代码。HR只在你过了这两关之后才出现。也就是说，你投出去的简历，第一关是跟几千份简历一起被算法打分。匹配度不到80%的，直接进回收站。过了这一关，你会收到一个链接，点进去不是真人面试官，是一个AI系统。它会给你几道题，让你在线写代码，而且它会模拟Code Review——不只是看你跑不跑得通，而是看你...

简历被挂麻了，求建议

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

04-07 00:00

广西大学算法工程师

快手大模型开发一面

1. 全参数微调的显存一般怎么估算全参数微调的显存不能只看模型参数本身，真正上线训练时至少要把参数、梯度、优化器状态和激活值都算进去。最粗略的估算方式是：如果模型参数量是 N，训练精度是 bf16，那么参数大约占 2N 字节，梯度再来一份 2N，如果用 Adam，还要额外保存两组一阶和二阶矩，通常再加 4N + 4N 字节。也就是说，不考虑激活值时，单参数相关内存大致可以按 12N ~ 16N 字节估。真正把 batch size、sequence length、checkpointing、并行策略加进去后，激活值往往才是大头。所以面试里如果只答“参数量乘 2”基本不够。更稳的答法是先给出静态...

AI-Agent面试实战...

点赞评论收藏

分享

03-23 12:54

门头沟学院 Java

快手 Ai infra一面拷打

继续来分享下之前的面经~欢迎友好讨论，信息共享1. 拷打项目2. 有没有了解过AF分离，他是为了解决什么问题，既然有PD分离了，为什么还要AF分离？3. 有没有读过flash attention的代码，V2比起V1做了哪些改进？细聊一下他是怎么改进的。有没有了解最近的V4版本？4. 大模型的一层有几个线性层？TP的时候怎么切的？这样子做的原因是什么？有什么思路优化中间的allreduce吗？5. 看过ray的底层实现吗？它有什么特性，你的课题研究中是怎么使用ray的？6. 聊一下你所找到的cuda gemm的优化方法7. leetcode 单词接龙

查看7道真题和解析

点赞评论收藏

分享

04-10 14:10

门头沟学院 Java

快手 AI agent开发二面分享 1h

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.你的AI项目的亮点是什么?2.上下文压缩算法的触发条件3.长任务(执行几天，步骤很多)在你的项目中是怎么做的?4.有了解claudeCode的Hook机制功能知道嘛?解释一下5.装饰器设计模式和代码设计模式6.看过Springboot/Spring的源码嘛?里面用到了哪些设计模式7.mysql的锁有哪些?8.讲一下乐观锁和悲观锁手撕:一道原创题，大致题意:给定一个链表"head={4,2,8}和 一课二叉树 root=Rn{1,4,4,1,2,null,2,null,null,nul1,2,8,2,1,null,null,null,null,8,null,null}(貌似是这样的)判断一下这课树中存不存在一条路径和链表是一样的。

点赞评论收藏

分享

评论

22

227

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 从投递到OC，你用了多久 #

4342次浏览 35人参与

# 总结:哪家公司最喜欢泡池子 #

169349次浏览 603人参与

# 厦门银行科技岗值不值得投 #

19290次浏览 427人参与

# 我的求职进度条 #

993716次浏览 6583人参与

# 哪些公司面试还在问八股？ #

996次浏览 21人参与

# 哪一刻你突然觉得实习“有点值了” #

2880次浏览 44人参与

# HR面都在聊什么？ #

1039次浏览 21人参与

# 实习教会我的事 #

73895次浏览 511人参与

# 一人一道大厂面试题 #

129109次浏览 1321人参与

# 生物制药/化工校招攻略 #

85738次浏览 347人参与

# 实习生如何通过转正 #

136184次浏览 1488人参与

# 哪些公司一直卡在简历筛选 #

108072次浏览 373人参与

# 大厂无回复，继续等待还是奔赴小厂 #

350455次浏览 2009人参与

# 实习生活中那些难忘的瞬间 #

333321次浏览 3399人参与

# 现在还是0offer，延毕还是备考 #

1364716次浏览 7953人参与

# 我想象的实习vs现实的实习 #

333214次浏览 2298人参与

# 有深度的简历长什么样？ #

54198次浏览 732人参与

# 反问环节如何提问 #

138668次浏览 2734人参与

# 夸夸我的求职搭子 #

261932次浏览 1983人参与

# 入职第一天，你准备什么时候下班 #

118553次浏览 519人参与

# 拿到offer之后，可以做些什么 #

105822次浏览 514人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务