1.为什么用 DPO,你的 DPO 数据从哪里来的?2.为什么用 reject sampling 而不是从其他商业 api 蒸馏正反样本?3.RAG 会吗?为什么文档类的 rag 你没做分段?4.介绍一下 Bert,Bert mask 怎么起作用的?5.MTP 介绍一下, 里面的计算公式打开一下讲一下,为什么会加快 inference?6.GRPO 中的公式讲一下,你在实际使用的时候那个 pi_theta 和 pi_old 了解吗?有没有手推过公式?7.手撕: 链表倒排