字节 一面 大模型算法 实习面经
有面试过同岗的朋友欢迎评论区交流
1. DPO 与 SFT 的区别:两者核心差异是什么?可以先做 DPO 再做 SFT 吗?为什么?
2. 把 DPO 用在“第一轮对话”,你会如何构建数据集?`Prompt`、`Chosen`、`Rejected` 具体来源是什么?
3. 多轮对话数据分布设计:单轮和多轮数据各占多少比例?这样配比的理由是什么?
4. DPO 多轮样本怎么采样:多轮样本如何采样?如何配比?
5. Reward Hacking现象:你怎么看待这个问题?怎么解决呢
1. DPO 与 SFT 的区别:两者核心差异是什么?可以先做 DPO 再做 SFT 吗?为什么?
2. 把 DPO 用在“第一轮对话”,你会如何构建数据集?`Prompt`、`Chosen`、`Rejected` 具体来源是什么?
3. 多轮对话数据分布设计:单轮和多轮数据各占多少比例?这样配比的理由是什么?
4. DPO 多轮样本怎么采样:多轮样本如何采样?如何配比?
5. Reward Hacking现象:你怎么看待这个问题?怎么解决呢
全部评论
相关推荐
查看9道真题和解析