首页 > 试题广场 >

强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目

[问答题]
强化学习后训练里,为何选择 PPO 而不是 GRPO?两者目标函数、稳定性与实现复杂度有哪些关键差别?
到底是TRPO还是GRPO
发表于 2026-04-11 17:07:06 回复(0)