首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
为什么只做 SFT 往往对不齐人类偏好?它跟预训练损失的差异
[问答题]
为什么只做 SFT 往往对不齐人类偏好?它跟预训练损失的差异到底体现在哪。
添加笔记
求解答(0)
邀请回答
收藏(3)
分享
纠错
1个回答
添加回答
0
Jerryyyytse
supervised finetuning is only providing question-answer pair, it doesn't indicate the alignment or human value to be safer or make more people to like.
发表于 2026-04-22 10:23:59
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
大模型应用-牛客面经八股
难度:
1条回答
3收藏
358浏览
热门推荐
相关试题
Tokenizer(BPE、Sen...
评论
(0)
来自
大模型应用-牛客面经八股
长上下文怎么搞?Rope scal...
评论
(2)
来自
大模型应用-牛客面经八股
提示词工程你是怎么搞的?Syste...
评论
(2)
来自
大模型应用-牛客面经八股
文本生成策略你实际怎么用?Gree...
评论
(0)
来自
大模型应用-牛客面经八股
KV Cache 在训练和推理中的...
评论
(4)
来自
2025年-华为-AI算...
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题