字节算法实习二面

 拷打项目
1. 除了MHA 还有其他种类的Self attention吗
2. 为什么要除根号d_k
3. 知道哪些位置编码?
4. Infernce 和Training 的时候 在GPU中都要保存哪些值和变量?有什么区别?
Code:
5. 手写mha
6. 最长无重复子串
全部评论
老哥我马上面这个,能不能给兄弟指点指点
点赞 回复 分享
发布于 2024-08-18 19:59 上海
老哥是什么岗位
点赞 回复 分享
发布于 2024-07-16 18:48 安徽

相关推荐

评论
7
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务