大佬们问个问题
1.预训练的损失函数和微调的损失函数计算有什么不同?关注点有什么差异?
2.预训练后的模型获得了什么样的能力?微调后又获得了什么样能力?

昨天面试的时候被问到了😭
全部评论
预训练所有token位置都计算损失、SFT一般只有答案部分计算损失(提问部分label是-100) 预训练是为了吃知识、SFT为了指令遵循
7 回复 分享
发布于 2024-08-20 16:37 广东
这个预训练是指的视觉编码器的预训练,还是mllm的第一阶段预训练
点赞 回复 分享
发布于 2024-09-08 11:53 天津
预训练和微调的任务不同损失函数肯定会不同吧?预训练不都是自回归而微调可能会根据下游任务设计不同的损失函数
点赞 回复 分享
发布于 2024-08-20 11:18 北京

相关推荐

评论
8
16
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务