字节大模型算法校招一面

1、实习介绍
2、讲述论文内容和细节。
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题。
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好。
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势。
6、欠拟合和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000,为什么设置10000
8、手撕:岛屿的数量。
全部评论

相关推荐

01-19 12:48
门头沟学院 C++
码客明:怎么说呢,气是真的气,装也是真的装,别人35k他30k肯定气,但是有人5k,发出来也可以装一下。
点赞 评论 收藏
分享
评论
4
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务