蚂蚁 ai infra日常实习一面分享
整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1.做过哪些相关工作 / 看过哪些经典文章 / 参与过哪些开源项目
2.为什么要做 Prefill 和 Decode 分离,追问:pd到底争夺什么资源,和“直接多给卡/资源翻倍”相比本质差异是什么
3.AF 分离好处和坏处
4.常见并行模式怎么看,怎么根据具体场景选择合适的并行模式,选择因素有哪些?
5.追问:Prefill / Decode × Attention / MOE 这四种组合,分别更适合什么并行策略;
6.你觉得一个优秀的大模型推理框架,核心技术点有哪些,追问量化选择策略;
7.GEMM核心优化方法,ncu
8.拷打算子项目,MLIR / LLVM 理解
1.做过哪些相关工作 / 看过哪些经典文章 / 参与过哪些开源项目
2.为什么要做 Prefill 和 Decode 分离,追问:pd到底争夺什么资源,和“直接多给卡/资源翻倍”相比本质差异是什么
3.AF 分离好处和坏处
4.常见并行模式怎么看,怎么根据具体场景选择合适的并行模式,选择因素有哪些?
5.追问:Prefill / Decode × Attention / MOE 这四种组合,分别更适合什么并行策略;
6.你觉得一个优秀的大模型推理框架,核心技术点有哪些,追问量化选择策略;
7.GEMM核心优化方法,ncu
8.拷打算子项目,MLIR / LLVM 理解
全部评论
相关推荐
kalistar:电气专业有几个能去电网的🤣
点赞 评论 收藏
分享
