1. 项目拷打 问的非常细 , 聊了30min2. GRPO 里的 reward 一般怎么设计,怎么避免模型学歪GRPO 的 reward 设计关键不是“打分越多维越好”,而是要保证相对排序真的有意义。常见做法是把 reward 拆成几部分,比如正确性、格式遵循、长度惩罚、拒答合理性、安全性这些,再做加权组合。对于推理任务,最核心的一般还是结果正确性和过程可验证性;对于开放式生成,还得控制风格漂移和模板化输出。真正难的是 reward hacking。模型很容易学会一些表面上拿高分、实际上没解决问题的套路,比如故意写很长、固定套模板、强行迎合裁判模型。所以 reward 设计通常不能只靠单一 ...