算法题:多头注意力,面试看会分头就给过。 底层:关注以下几个点,agent组,怎么训练?怎么搭连路?怎么构造工具? 其中训练很有意思,尤其是agent强化训练,面试官直言,没有全量强化经验的人我们不要。针对reward设计(为什么这么设计?有什么用?能更快收敛还是更好效果?),超参数调优(什么图像意味着什么要做什么样的调整)问的很细。 上层:考察面试者的视野,讨论了最近的几项技术,比如env based的训练,快手的ARPO看过没~,你怎么看环境的搭建,你觉得long horizon的任务怎么结合环境训练?你用过verl搭环境训练吗?比如GSPO为什么重要?同比DAPO(面试官直说这就是个消融...