北京智源研究院-AI编译器工具链-二面
二面
1. 自我介绍
2. 推理框架的设计,计算图,运行图,内存管理
3. 动态图,静态图,动态shape
4. 图优化
5. warp之间通信
6. cuda reduce
7. cuda softmax,warp处理与block处理的区别
8. block,grid的设置,调度,为什么会影响算子速度
9. CUDA的计算模型
10.flash attention v1 v2
面试时间:45分钟
#面经#
#高性能计算#
#高性能计算面经#
#模型部署#
1. 自我介绍
2. 推理框架的设计,计算图,运行图,内存管理
3. 动态图,静态图,动态shape
4. 图优化
5. warp之间通信
6. cuda reduce
7. cuda softmax,warp处理与block处理的区别
8. block,grid的设置,调度,为什么会影响算子速度
9. CUDA的计算模型
10.flash attention v1 v2
面试时间:45分钟
#面经#
#高性能计算#
#高性能计算面经#
#模型部署#
全部评论
不懂就问。啥是运行图
手撕两道cuda?
相关推荐
点赞 评论 收藏
分享
longerluck...:前几年实习(初创公司),我们老板每月不固定会举行会议,叫我们几个实习生谈一下生活看到或听到的一些事情,并给出看法,当时我就正常讲了下我所见到的,没有个人看法,老板直接当着众人的面骂了我,那时候我真是感觉尴尬的要死(毕竟还有其他正式员工在)后面没待多久我就提出离职(因为当时我还负责一个项目),我leader叫我不要走,说给我涨工资,我反正觉得这种公司我是待不下去了,官味太重了,最后我还是跑路
点赞 评论 收藏
分享