美团大模型算法一面
算法题:多头注意力,面试看会分头就给过。
底层:关注以下几个点,agent组,怎么训练?怎么搭连路?怎么构造工具?
其中训练很有意思,尤其是agent强化训练,面试官直言,没有全量强化经验的人我们不要。针对reward设计(为什么这么设计?有什么用?能更快收敛还是更好效果?),超参数调优(什么图像意味着什么要做什么样的调整)问的很细。
上层:考察面试者的视野,讨论了最近的几项技术,比如env based的训练,快手的ARPO看过没~,你怎么看环境的搭建,你觉得long horizon的任务怎么结合环境训练?你用过verl搭环境训练吗?比如GSPO为什么重要?同比DAPO(面试官直说这就是个消融实验),解决了什么问题?当时deepseek R1,你觉得他们可能怎么用GRPO训MoE?你觉得agent能力中,coding GUI search 等等?什么是基础能力?哪个最有可能落地?为什么?
