27实习字节大模型算法 二面 45min

1、实习介绍
2、讲述论文内容和细节
3、是否了解过多模态大模型,简单讲一下了解的多模态大模型
4、dpo 和sft 的区别,可以先dpo后sft吗?
5、如何处理reward hacking?
6、dpo如果应用在第一轮对话中应该怎样做你会如何构造这个数据集合?
7、手撕hot100:二叉树的右视图
全部评论

相关推荐

2025-12-31 13:20
北京大学 算法工程师
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务