面试很难,还是要多多练习,感觉自己说不明白业务逻辑1.项目拷打2.实习相关八股:1.业务场景2.sft数据如何筛选和采样 有哪些处理3.为什么选取GRPO 优化目标是什么 GRPO的数学原理4.奖励函数如何设计(重点拷问)5.如何判断模型强化学习训练过程中训练质量达到要求6.有没有出现reward hacking7.除了这种碰巧式的奖励作弊外还有其它的奖励作弊吗8.了解ppo和dpo吗(开始吟唱)3.其它八股:1.attention计算时间复杂度2.kv cache 原理3.gqa mla 原理4.vllm原理5.flash attention原理6.稀疏注意力原理7.如果模型推理比较慢如何排查4.codingrand7()表示rand10()给定浮点数组通过向上取整和向下取整构造目标整数 求最小变化之和最长无重复子串