为什么只做 SFT 往往对不齐人类偏好?它跟预训练损失的差异到底体现在哪。

11401333

图解大模型应用-牛客面经八股

全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务