字节大模型算法一面-实习面经
1、项目介绍
2、讲述论文内容和细节
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势
6、欠拟合“和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000为什么设置10000
8、手撕:岛屿的数量
2、讲述论文内容和细节
3、对于模型训练过程中,如果出现样本标签数据分布极其不均衡,通常会采取什么方法来解决问题
4、transformer的感受野encoder中是可以看到所有的token的,你认为感受野越大越好还是越小越好
5、位置编码:sin cos,正余弦,bert可学习位置编码,rope相比于正余弦编码的优势
6、欠拟合“和过拟合定义,通常如何解决?
7、transformer的位置编码的基底是10000为什么设置10000
8、手撕:岛屿的数量
全部评论
相关推荐
点赞 评论 收藏
分享
查看8道真题和解析