首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目
[问答题]
强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目标函数、稳定性与实现复杂度有哪些关键差别?
添加笔记
求解答(0)
邀请回答
收藏(0)
分享
纠错
0个回答
添加回答
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
2025年-华为-AI...
难度:
0条回答
0收藏
148浏览
热门推荐
相关试题
你怎么把 Transformer ...
评论
(1)
来自
2025年-华为-AI算...
不借助深度学习框架,直接用 num...
评论
(0)
来自
2025年-华为-AI算...
给我讲讲你设计的大模型后训练流程:...
评论
(0)
来自
2025年-华为-AI算...
给我讲讲多头注意力的计算流程与复杂...
评论
(0)
来自
2025年-华为-AI算...
你在项目里具体怎么用过贝叶斯概率?...
评论
(0)
来自
2025年-华为-AI算...
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题