大模型算法实习二面 携程

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.论文拷打
2.模型困惑度
3.项目使用了哪些评估指标?
4.项目的DPO数据如何构造,为什么?
5.项目中的Reward模型怎么训练的,为什么自己训?
6.GRPO过程中遇到过什么问题,怎么解决的?
7.介绍DPO,PPO,GRPO过程和区别
8.GRPO中奖励值可以怎么得到,有哪些方法?
9.手撕MHA
全部评论

相关推荐

继续来分享下之前的面经~欢迎友好讨论,信息共享1. 实习拷打2.项目1拷打3.项目2拷打4. 你们画像里有很多隐性标签,这种标签本身没有显式真值,你们一开始是怎么想到用大模型来做这件事的?5. 传统规则、统计方法、分类模型其实也能做一部分标签,为什么你们最后会觉得一定要引入LLM来做6. 你这个Prompt Engineering项目里,我比较好奇的一点是,为什么一定要先做token压缩?如果不压缩,具体会有什么问题7. 你说你们把原始行为明细压缩成高密度特征,那这个过程里你怎么判断哪些信息该保留、哪些信息该删?万一删掉了关键行为怎么办?8. 你们为什么会把高频到访、强行为强度的信息放在前面?9. 你提到按主题域去做Semantic Grouping比如把消费类标签放一起,这个事情为什么会提升效果?10. 既然分组这么有效,那消费和出行之间明明也有关系,比如高消费人群可能更常打车、更常住高端酒店,那你把它们拆开之后,会不会反而丢掉跨域关联11. 你们这个Prompt里为什么“禁止做什么”会比“要求做什么”更有效?这个结论是怎么得出来的,有没有比较具体的Bad Case可以举一下12. 你们要求模型输出严格的JSON格式,这种工程化约束听起来很强,那模型最常犯的错是什么13. 如果模型输出里经常出现幻觉或者格式错误,你们是怎么一点点把它调到可上线状态的?中间有没有经历过那种离线看着还行、线上一跑全崩的情况?14. 你们这里有很多标签是没有Ground Truth的,那这种情况下你怎么证明“模型打出来的标签是靠谱的”15.你提到会用Proxy Metric去评估,那你们当时是怎么设计这些代理指标的?16.你说DeepSeek R1比其他模型更适合这个任务,那你们当时有实际对比过Qwen)、Llama吗?具体差异体现在哪,为什么R1更适合做这种标签推理?
查看13道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务