字节大模型算法暑期实习面经

1️⃣一面
1.深挖项目,比如reward怎么设计的,后续有什么改进思路
2.ppo grpo的具体原理以及区别,ppo的critic模型怎么训练的
3.kl散度有什么用,为什么要用kl散度,以及一些kvcache相关的,mla之类的
4.手撕:链表相加,用双指针
2️⃣二面
1.问项目
2.从transformer八股到agentic rl,再到grpo的改进算法以及reward hacking,最后还聊了harness、Hermes这种比较新的agent设计以及讲讲看的最新的论文
3.没有手撕
3️⃣三面
1.聊项目
2.比较长的对话,强化学习怎么做reward,reward什么时候用模型什么时候用规则
3.如何避免奖励坍缩和hacking,同时有什么工程方法可以处理比较长的问答,多轮对话怎么微调,如何保持上下文记忆
4.agentic rl设计的思路,sft到了什么阶段可以做rl,如何评估,
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

27 届,普通本科,某 BG 后端实习。带教第一天就一句"先把环境跑起来再说",结果我光配环境配了三天,Welink 找运维四次。今天CodeCheck 又打回一轮,不想动了,随手记几个进来之后才知道的事。关于工卡入职那天看到一个哥们工卡挂红绳,以为是部门标识,中午去 J 区食堂路上别人聊起来才知道是OD。后来慢慢发现工卡颜色、挂绳、卡面字段都不一样,正编 / OD / 外协 /  实习生四种,你不主动看分不出来。同期那个实习生,有个一直跟他对需求的"哥",他过了两周才搞清楚是 OD —— 因为对方周末从来不在Welink 上回他,他还以为人家"工作生活平衡"做得好。关于夜宵20:30 才发这个我之前也听过。我们这栋是面包 + 牛奶 + 一个苹果。问题是 19:30 就饿了 —— 我现在的策略是 7点先去二楼食堂窗口买个煎饼垫一下,9 点再下去领夜宵。隔壁组听说有盒饭,带教甩了句"楼层不一样"就不解释了。周三本来是Family Day,我们组今年版本期基本没真"放"过,上周三我 9 点才走,出门看主管工位还亮着。关于工资跟旁边那个实习生算过一次账。上面提到那个科锐 OD 哥们,我们粗估单月到手跟我们差不多 —— OD 是月薪 ÷ 22工作日,我们按天 + 周末双倍,版本期跟周末就能拉平。这事让我之前那种"实习生最底层"的印象松了点,但也没什么好炫的:人家有社保、有年终、有股票池预期,我们没有,真不是一个口径。关于转正我才俩月,这事不敢瞎讲。不过上周走的一个学长跟我吃过一次饭,他说主管没明说"你转不了",就是聊了一下"今年部门情况你也知道",他自己琢磨明白了。问他"是不是想留华为就必须实习",他没正面答,只说"实习能让你看清自己想不想留,剩下的不是你说了算"。剩下的没啥,松山湖小火车我出差坐过一次,挺好玩但天天坐就那样;下午茶不是天天有,看部门;团建去过一次剧本杀,玩到 11点散场第二天照常上班。继续搬砖了,牛友们有问题可以评论,我摸鱼的时候来回答
华为HUAWEI工作强度 1363人发布
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务