26秋招字节广告算法一面凉经
1.实习介绍
2.问了一下实习里面项目的数据来源,数据清洗策略
3.transformer的计算复杂度分析,写伪代码
4.多头和单头的情况下有什么区别
5.DeepSpeed里面流水线并行是怎么优化复杂度的
6.Ff n的权重在实践过程中有什么优化方案
7.pre-layer normalization有什么好处
8.transformer有太多层不稳定怎么办
反问:业务内容,业务有什么特点,为什么捞大模型简历
2.问了一下实习里面项目的数据来源,数据清洗策略
3.transformer的计算复杂度分析,写伪代码
4.多头和单头的情况下有什么区别
5.DeepSpeed里面流水线并行是怎么优化复杂度的
6.Ff n的权重在实践过程中有什么优化方案
7.pre-layer normalization有什么好处
8.transformer有太多层不稳定怎么办
反问:业务内容,业务有什么特点,为什么捞大模型简历
全部评论
相关推荐
昨天 09:40
西北大学 Java 点赞 评论 收藏
分享
12-02 14:44
门头沟学院 Java 点赞 评论 收藏
分享
查看9道真题和解析