首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
在RLHF中,reward model的训练依赖于:
[单选题]
在RLHF中,reward model的训练依赖于:
人类偏好排序
监督数据
蒙特卡罗采样
随机初始化
查看正确选项
添加笔记
求解答(0)
邀请回答
收藏(0)
分享
纠错
0个回答
添加回答
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
2026年-华为-1月...
难度:
0条回答
0收藏
2浏览
热门推荐
相关试题
在政务报告生成场景中,用户希望一次...
评论
(0)
来自
2026年-华为-1月2...
16.避免过拟合的正则化方法包括?
评论
(0)
来自
2026年-华为-1月2...
缩放点积注意力(Scaled Do...
评论
(0)
来自
2026年-华为-1月2...
某地区下雨的概率为0.4,刮风的概...
评论
(0)
来自
2026年-华为-1月2...
在数据预处理过程中,某类数据(浮点...
评论
(0)
来自
2026年-华为-1月2...
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题