字节大模型校招二面面经
实习介绍——5min
项目相关细节提问——5min
1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?
2. TP 或 PP 了解吗?
3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?
4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?
5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。
6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。
手撕算法:经典接雨水+最长上升子序列
项目相关细节提问——5min
1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?
2. TP 或 PP 了解吗?
3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?
4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?
5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。
6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。
手撕算法:经典接雨水+最长上升子序列
全部评论
接雨水这个我感觉不简单
手撕算法是有点难度啊
相关推荐
点赞 评论 收藏
分享
陈好好wy:整体看下来有点空空的感觉,可以把每一段项目经历都再完善一下,然后用小标题的形式写个两到三条,目前看有点太简单了,不太能看出具体在这个项目里做了什么工作。还是要尽量把自己做的工作以量化的形式体现在简历上呢。 点赞 评论 收藏
分享
02-11 13:25
燕京理工学院 数据分析师
在笔试的大西瓜很矫健:校招数分不用想了,这经历和学历都不够用,大厂更别想,初筛都过不了,说点不好听的小厂数分都进不去(小厂也是假数分),要两个对口实习+3个项目(或者3+2),而且要有含金量才能补一点你的学历劣势。
建议刷实习,社招找数分,校招看运气,能入行业就行,可以运营转数分 点赞 评论 收藏
分享
