关注
Reward model 如何训练?Reward model 你觉得训练到什么程度可以?Reward model不准确怎么办?Rewar model和训练的LLM模型用同一个基座模型可能有什么作用?这几个问题 佬怎么回答的啊
查看原帖
点赞 评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享

点赞 评论 收藏
分享

点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 我的求职总结 #
40090次浏览 619人参与
# 你收到了团子的OC了吗 #
1319018次浏览 11655人参与
# 一人一个landing小技巧 #
41911次浏览 736人参与
# 你觉得专业和学校哪个对薪资影响最大 #
56124次浏览 463人参与
# 机械人值得去的国央企 #
60761次浏览 413人参与
# 国企vs私企,怎么选? #
21763次浏览 174人参与
# 应届生第一份工作最好去大厂吗? #
17517次浏览 434人参与
# 考公还是考研,你怎么选? #
25028次浏览 129人参与
# 选完offer后,你后悔学本专业吗 #
43740次浏览 227人参与
# 安利/避雷我的专业 #
72263次浏览 508人参与
# 大厂还是考编 #
87072次浏览 1314人参与
# 如果重来一次你还会读研吗 #
169779次浏览 1767人参与
# 怎么防止在试用期被辞退 #
119188次浏览 897人参与
# 辞职之后最想做的一件事 #
13620次浏览 176人参与
# 联想工作体验 #
24459次浏览 166人参与
# 薪资一样,你会选择去大厂还是小公司 #
18127次浏览 106人参与
# 工作中的卑微时刻 #
9739次浏览 58人参与
# 校招第一份工作你干了多久? #
69054次浏览 338人参与
# 为了秋招你都做了哪些准备? #
12254次浏览 183人参与
# 工作丧失热情的瞬间 #
278077次浏览 2337人参与