首页 > 试题广场 >

给我讲讲你设计的大模型后训练流程:对齐数据怎么构造?奖励建模

[问答题]
给我讲讲你设计的大模型后训练流程:对齐数据怎么构造?奖励建模如何评测?在线/离线评测各怎么做?
1. 对齐数据构造: SFT数据构造, 偏好数据构造 2. 奖励建模评测: 内部评测, 外部关联性评测 3. 在线 vs 离线评测: 离线评测(快速迭代), 在线评测(最终验证)
发表于 2026-04-01 10:07:48 回复(0)