字节大模型算法校招一面

1、实习介绍
2、讲述论文内容和细节。
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题。
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好。
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势。
6、欠拟合和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000,为什么设置10000
8、手撕:岛屿的数量。
全部评论

相关推荐

评论
4
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务