首页 > 试题广场 >

在RLHF中,reward model的训练依赖于:

[单选题]
在RLHF中,reward model的训练依赖于:
  • 人类偏好排序
  • 监督数据
  • 蒙特卡罗采样
  • 随机初始化

这道题你会答吗?花几分钟告诉大家答案吧!