字节大模型算法校招二面凉经
1、实习介绍
2、讲述论文内容和细节。
3、是否了解过多模态大模型,简单讲一下了解的多模态大模型。
4、dpo 和sft的区别,可以先dpo后sft吗?
5、如何处理reward hacking?
6、dpo如果应用在第一轮对话中应该怎样做,你会如何构造这个数据集合?你认为多轮对话中,数据分布应该是什么样的?
手撕hot100:二叉树的右视图
2、讲述论文内容和细节。
3、是否了解过多模态大模型,简单讲一下了解的多模态大模型。
4、dpo 和sft的区别,可以先dpo后sft吗?
5、如何处理reward hacking?
6、dpo如果应用在第一轮对话中应该怎样做,你会如何构造这个数据集合?你认为多轮对话中,数据分布应该是什么样的?
手撕hot100:二叉树的右视图
全部评论
你这面试的问题问的好少啊,应该是前面的回答不太满意,后面就没继续问了,好好复盘吧
dpo 和sft的区别,可以先dpo后sft吗咋回答的
相关推荐
查看9道真题和解析