1.讲一下实习期间做的工作2.讲一下Dense 模型和 MoE 模型的区别、优缺点及参数上的比较3.MoE模型专家的负载不均衡问题如何解决?4.如何通过修改损失函数来解决负载均衡问题?5.具体可以使用哪些损失函数解决负载均衡问题?6.选一个 RLHF 方法来讲解(PPO, GRPO, DPO)7.PPO有几个模型,每个模型的作用,以及哪些模型需要训练,哪些模型不需要训练8.为什么要进行 RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)9.介绍一下 Attention 机制数学原理、直觉原理以及计算公式的计算过程10.什么是微调、微调的原理11.为什么微调会有效果?12.为什么不做全量微调?13.介绍一下LoRA 微调及其如何减少训练的参数14.算法题(两道题)1.计算二叉树的深度2.计算给定二叉树的最大路径和写出来了并测试通过