字节算法实习二面
拷打项目
1. 除了MHA 还有其他种类的Self attention吗
2. 为什么要除根号d_k
3. 知道哪些位置编码?
4. Infernce 和Training 的时候 在GPU中都要保存哪些值和变量?有什么区别?
Code:
5. 手写mha
6. 最长无重复子串
1. 除了MHA 还有其他种类的Self attention吗
2. 为什么要除根号d_k
3. 知道哪些位置编码?
4. Infernce 和Training 的时候 在GPU中都要保存哪些值和变量?有什么区别?
Code:
5. 手写mha
6. 最长无重复子串
全部评论
老哥我马上面这个,能不能给兄弟指点指点
老哥是什么岗位
相关推荐