发发面经攒攒人品项目深挖1. 训练参数设置&资源配置细节2. DPO训练loss的直观含义3. 为啥不直接SFT,非要搞DPO4. 负样本构造逻辑追问:长链路GUI下正负样本长度不一有啥影响?原因是啥?5. 为啥选GRPO?对比过其他算法吗?6. tool response需要loss mask吗?理由是啥?7. 训练任务中mcp构造数量+具体case8. 训了几版模型?印象最深的bad case是啥?八股问答1. 看过AUTOGLM论文吗?其他大模型论文呢?印象最深的点是啥?2. 给定模型层数+隐藏层维度,估算参数量级+解释计算逻辑3. 同参数同序列长度,计算kvcache大小手撕代码流式输入输出处理规则1. 被包裹的字符直接隐藏2. mcp调用只输出instruction里的内容