美团算法实习一面技术面 50min

1. GRPO是on policy还是off policy?为什么?
2. GRPO利用的数据是旧策略产生的,那为什么还叫on policy?
3. 重要性采样解决了什么问题? 公式是怎么样的?解释下每个参数
4. GSPO和DAPO分别解决了什么问题?怎么解决的?
5. 什么是强化学习的熵崩溃?怎么优化或者解决这个问题?
6. 熵崩溃和reward hacking什么关系?
7. Qwen3和ds r1区别?
8. 如何确定你项目的评估指标迭代是否符合当前需求?
9. MLA具体是怎么做的?可以加快推理速度吗?
10.  代码题是给三段代码,判断输出。
全部评论

相关推荐

评论
2
3
分享

创作者周榜

更多
正在热议
更多
# 一张图晒出你司的标语 #
4453次浏览 78人参与
# 找AI工作可以去哪些公司? #
10086次浏览 314人参与
# 开放七大实习专项,百度暑期实习值得冲吗 #
15701次浏览 229人参与
# 你的实习产出是真实的还是包装的? #
20825次浏览 346人参与
# 从事AI岗需要掌握哪些技术栈? #
9809次浏览 390人参与
# 春招至今,你的战绩如何? #
67740次浏览 599人参与
# 厦门银行科技岗值不值得投 #
8237次浏览 188人参与
# AI面会问哪些问题? #
29127次浏览 632人参与
# 你做过最难的笔试是哪家公司 #
35940次浏览 313人参与
# 中国电信笔试 #
32390次浏览 301人参与
# 金三银四,你的春招进行到哪个阶段了? #
22563次浏览 284人参与
# 投递几十家公司,到现在0offer,大家都一样吗 #
341221次浏览 2176人参与
# 同bg的你秋招战况如何? #
212267次浏览 1121人参与
# 哪些公司真双非友好? #
69817次浏览 289人参与
# 如何准备秋招 #
78324次浏览 868人参与
# 阿里笔试 #
179436次浏览 1324人参与
# 应届生被毁约被毁意向了怎么办 #
63349次浏览 305人参与
# 机械人避雷的岗位/公司 #
62727次浏览 393人参与
# 小马智行求职进展汇总 #
25151次浏览 80人参与
# 第一份工作一定要去大厂吗 #
15204次浏览 123人参与
# 担心入职之后被发现很菜怎么办 #
291429次浏览 1210人参与
# 为了减少AI幻觉,你注入过哪些设定? #
26323次浏览 310人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务