1️⃣一面 1、介绍自己的中厂实习,从业务背景,困难,解决方法,自己的产出四个维度阐述。2、 ppo 和 dpo 区别和原理(因为实习做的就是 rl 相关)3、是不是用的 Verl 框架做的 rl ?详细讲一下 verl 框架的训练流程。并讲一下配置文件中 rollout _ batchsize , global _ batch _ size , micro _ batch _ size _ per _ device _ for _ update , rollout . n 等等参数的关系,以及他们如何影响最终更新时每张显卡上的样本数。4、reward function 如何设计的为什么这么设计?5、critic model 作用是什么?为什么有了 reward model 还需要 critic model ?6、有没有了解最近的 rl 方法?过了一遍 grpo , dapo , gspo 过了的主要改进点7、计算机基础八股: B 树和 B 一树的区别。如果 CPU 突然被打满了,如何排查?什么情况下会出现锁,如何解决。8、核心代码模式,写一下大模型预测token 时, beam 树如何构建,如何得到最终的结果( pytorch 简单实现了一下,主要是还是讲明白)9、手撕hot100,中等题,最小生成树。2️⃣二面1、简单介绍中厂实习经历。2、模型蒸馏的数据如何做的?如何清洗蒸馏得到的数据?3、有没有使用强化学习做过数据仿真。这个之前看过一篇论文,刚好讲了一下。4、有没有了解过训练推理一致性这个领域?我讲了一下强化学习领域的推训一致性,固定 flash attention 分块策略, vllm 推理框架固定 page attention 分块策略。5、模型量化如何做的。 gptq , qat 等等,并说明为什么选择了w8a16的量化?6、写一下 ppo 算法的损失函数和 GAE 优势函数。主要还是讲明白7、 grpo 算法中 kl 散度和之前的方法有什么区别?在 dapo 中为何舍弃了 kl 散度?8、模型蒸馏主要的两种方式。硬标签和软标签。9、介绍一下 kmeans 算法,如何设置合适的 k 值。如果在一个非常大的数据量中,如何实时增量更新,并动态管理 k 值。10、一个场景题11、手撕题hot100,中等题,合并 k 个升序链表。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。