北京智源研究院-AI编译器工具链-二面
二面
1. 自我介绍
2. 推理框架的设计,计算图,运行图,内存管理
3. 动态图,静态图,动态shape
4. 图优化
5. warp之间通信
6. cuda reduce
7. cuda softmax,warp处理与block处理的区别
8. block,grid的设置,调度,为什么会影响算子速度
9. CUDA的计算模型
10.flash attention v1 v2
面试时间:45分钟
#面经#
#高性能计算#
#高性能计算面经#
#模型部署#
1. 自我介绍
2. 推理框架的设计,计算图,运行图,内存管理
3. 动态图,静态图,动态shape
4. 图优化
5. warp之间通信
6. cuda reduce
7. cuda softmax,warp处理与block处理的区别
8. block,grid的设置,调度,为什么会影响算子速度
9. CUDA的计算模型
10.flash attention v1 v2
面试时间:45分钟
#面经#
#高性能计算#
#高性能计算面经#
#模型部署#
全部评论
不懂就问。啥是运行图
手撕两道cuda?
相关推荐
02-10 10:46
江西理工大学 Java 白火同学:先说结论,对于一份实习简历来说,整体还是挺不错的,技术深度和广度都到位,找到一份中小厂的实习没啥问题。
再说说能优化的点吧。
1、量化结果,项目中很多工作量化一下结果给面试官的感受会更直观一些,也能体现你对应用该项技术的理解(在众多技术为什么要用它,运行性能或者说开发效率往往是一大考虑指标;而不是说大家做这种功能都用它,所以我用它)。
2、突出亮点,项目中可以从“工作职责”择一些“个人亮点”另写一块,优先去写开发过程中遇到的xx问题,使用xx技术达到xx效果,针对性去写一些疑杂难的功能,能带出你个人思考和解决的过程。
点赞 评论 收藏
分享
点赞 评论 收藏
分享