滴滴大模型面经
本人只做点业务数据sft, 做的更加偏向于粗糙业务,直接被拷打麻了,望佬看到可以给我指点一下
1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?
#滴滴##秋招##面经# #算法# #八股#
1. 现在有一个非常完备的sft指令集,你只能选择1w条,你如何选择数据来使模型的能力更加提升+完备?
2.我们知道sft的时候尽量不要注入知识给模型,因为只希望sft可以提升模型的指令遵循的能力,注入知识的话,可能会导致后面使用的时候模型容易出现幻觉,那我们怎么确保自己选择的这1w条数据没注入知识给模型呢?
3.7b和13b模型微调同一批数据,学习率哪个大?
4. Pretrain/sft/ppo学习率怎么变换?
5. 学习率和batch大小变化一致吗?
6. 做表征学习的时候,模型坍塌的原因?
7. 为什么做rm的时候,用不同的小模型大模型来采样生成后训练出来的rm会比以前那种方法奏效?这很反直觉,因为按照直觉来说的话,这种方式可能会让rm偏向某个权威的模型
8. 现在有很多种方法,有做完pt直接做rlhf的,也有按班就步的pt-sft-rlhf的,还有直接不做rlhf的,你觉得为什么这些方法都有效,你觉得是什么原因造成的?
#滴滴##秋招##面经# #算法# #八股#
全部评论
搞这么细啊。有些答案可以去llama3.1的技术报告参考,其他的等大佬回答
通常lr缩放倍数为batch size倍数的开方。例如batch size增大4倍,学习率对应扩大2倍即可。
对TEMU有想法的戳我哈
佬这是几面啊,滴滴是连着面吗🙌
蹲蹲答案
蹲蹲答案
我们这大模型搜推方向 来试试嘛
相关推荐
01-08 09:52
门头沟学院 Java christina2...:楼主你应该问毕业前什么时候能签三方,签三方就代表着给你预留了这个岗位,毕业后直接正式入职。转正答辩拿到正式offer一般都是会签三方的,图片这个HR好像没有三方的概念。
点赞 评论 收藏
分享
2025-12-09 14:12
新乡学院 嵌入式软件开发
程序员花海:实习和校招简历正确格式应该是教育背景+实习+项目经历+个人评价 其中项目经历注意要体现业务 实习经历里面的业务更是要自圆其说 简历模板尽可能保持干净整洁 不要太花哨的 点赞 评论 收藏
分享
点赞 评论 收藏
分享