滴滴RL实习生面经
浙大98投递
背景:9本9硕,1篇2作A, 1篇4作A, 1篇1作在投,半年算法研究实习
一面
科研经历
如何增强多模态模型的识别准确度(比如识别出一个医疗手写表格中的特征与具体值)
在用verl做强化学习时,你是根据什么指标来查看训练的进度的。
讲一讲你对rag的理解
ppo的原理
ppo是倾向于将模型往什么方向训练
讲一个你最熟悉的模型(讲的deepseek-r1)
多模态基础
手写多头注意力
为什么计算注意力要除以维度
decoder-only的结构,输入prompt到输出token的整个过程。
有什么办法将2维的embedding转换成3维的embedding,同时保留位置编码信息
以后读博还是进入工业界
如果有转正机会,是否考虑留下
反问:
做什么(关于多模态Agentic RL的算法研究,论文导向,从头开始发顶级会议论文)
base
需要学习的内容。
好久没面试了,有点紧张,讲述逻辑很混乱,而且多模态没准备也没基础,有点凉了
二面
面试官感觉比我还紧张
如果过来,还是要靠实习生自己从零开始做,可以接受嘛
细问了一下一作的文章,然后就结束了,讲述了一下目前部门的情况,很像闲聊的感觉。
查看7道真题和解析