快手NLP大模型算法校招一面
1.为什么用 DPO,你的 DPO 数据从哪里来的?
2.为什么用 reject sampling 而不是从其他商业 api 蒸馏正反样本?
3.RAG 会吗?为什么文档类的 rag 你没做分段?
4.介绍一下 Bert,Bert mask 怎么起作用的?
5.MTP 介绍一下, 里面的计算公式打开一下讲一下,为什么会加快 inference?
6.GRPO 中的公式讲一下,你在实际使用的时候那个 pi_theta 和 pi_old 了解吗?有没有手推过公式?
7.手撕: 链表倒排
2.为什么用 reject sampling 而不是从其他商业 api 蒸馏正反样本?
3.RAG 会吗?为什么文档类的 rag 你没做分段?
4.介绍一下 Bert,Bert mask 怎么起作用的?
5.MTP 介绍一下, 里面的计算公式打开一下讲一下,为什么会加快 inference?
6.GRPO 中的公式讲一下,你在实际使用的时候那个 pi_theta 和 pi_old 了解吗?有没有手推过公式?
7.手撕: 链表倒排
全部评论
相关推荐
点赞 评论 收藏
分享
02-09 20:12
门头沟学院 测试开发 点赞 评论 收藏
分享
曼迪匹艾公司福利 149人发布