发点面经攒攒人品~~八股拷打RL相关:1.GAE是什么?2.蒙特卡洛模拟和时序差分估计的区别?3.偏差和方差是什么?4.GRPO的优势值是什么?怎么算?baseline是什么?5.RL训练MoE架构时的问题?怎么改进?问GSPO?6.DeepSpeed框架了解吗?7.Adam的公式是什么?8.Adam一阶矩、二阶矩和梯度更新是怎么算的?计算机基础:1.指针是什么?2.指针的长度是多少?3.考了一道指针的算法题,关于赋值的。4.BF16和FP16的区别?5.bit和byte的关系6.什么是时间复杂度?7.GPU死锁是什么?8.排序算法的一般的时间复杂度,并举例几个排序算法9.介绍一下快排,什么时候出现最差情况?为什么一般不会出现最差的情况?10.什么是动态规划?举个经典例子