字节搜索广告面经

1. sft和预训练讲讲,区别在哪,sft会有什么问题,为什么你这个任务用sft
2. sft的复读机问题是什么导致的,为什么数据的重复会导致复读机问题
3. 为什么用dpo,dpo是on policy还是off policy,dpo有什么问题
4. grpo和ppo属于on还是off,为什么需要clip,为什么选择dpo不是grpo,ppo
5. 损失函数mse和交叉熵区别,为什么大模型都用交叉熵
6. mha gqa mqa的区别和作用,decoder的自注意力为什么要mask,如何mask,
7. 多agent系统的query改写怎么做的,如果现在让你来训练,你怎么挑选哪些query,训练以后上线怎么评估效果,可以设计哪些指标
8. 手撕mha,加一下causal mask,torch.triu的作用,除以dk的作用,为什么是更号dk,contiguous()的作用,为什么attention公式是这样的
9. 有什么优化注意力计算的方法,讲讲deepspeed和flash attention
全部评论

相关推荐

萧索X:写篮球联赛干嘛,陪老板打篮球吗。还有实习经历要写自己所在岗位具体完成什么工作,自己的任务具体完成了什么需求,给公司带来了哪些量化增长
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务