腾讯AI技术研究一面 实习面经
被拷打麻了....
1.R1复现方案,奖励函数为什么这么设置?有考虑过数据泄露的情况吗,就是如果你改的这些题目比较相似的话?有没有出现中英混答的情况?怎么解决?为什么你的最后结果没有突破到更高的分数?你说你用的Kimi K2和Gemini,是什么形式的?API还是网页?如果说不是输出你的奖励词语,也是可以做到推理的,你怎么考虑这个问题?
2.手机助手项目拷打:介绍背景,怎么做的。如果我现在的场景是APP更新之后,点击的模块发生变化,你会怎么解决这个问题?如果是上下滑动找商品呢?
3.GRPO如果组内设置的size非常小的话会怎么样?
4.GRPO的平均是怎么计算的?
5.场景题:如果让你来搭建一个LOL的陪玩助手,你会怎么搭建?可以从数据选择,整个架构设计来说。如果用户发现你的这个助手语气太生硬了,你怎样解决?如果版本更新,装备这些东西变了,你是训练到模型里面去的,模型需要重新训练吗?有没有什么解决办法?如果是LOL你在对线的时候,发生了小龙团,你怎么样让助手去做这种场景的一个提醒规划?
6.有了解过MOE模型吗?
7.讲下PPO
8.MCP和Skill有了解吗?
9.代码:先写打家劫舍,然后改进输出具体打劫了哪些
1.R1复现方案,奖励函数为什么这么设置?有考虑过数据泄露的情况吗,就是如果你改的这些题目比较相似的话?有没有出现中英混答的情况?怎么解决?为什么你的最后结果没有突破到更高的分数?你说你用的Kimi K2和Gemini,是什么形式的?API还是网页?如果说不是输出你的奖励词语,也是可以做到推理的,你怎么考虑这个问题?
2.手机助手项目拷打:介绍背景,怎么做的。如果我现在的场景是APP更新之后,点击的模块发生变化,你会怎么解决这个问题?如果是上下滑动找商品呢?
3.GRPO如果组内设置的size非常小的话会怎么样?
4.GRPO的平均是怎么计算的?
5.场景题:如果让你来搭建一个LOL的陪玩助手,你会怎么搭建?可以从数据选择,整个架构设计来说。如果用户发现你的这个助手语气太生硬了,你怎样解决?如果版本更新,装备这些东西变了,你是训练到模型里面去的,模型需要重新训练吗?有没有什么解决办法?如果是LOL你在对线的时候,发生了小龙团,你怎么样让助手去做这种场景的一个提醒规划?
6.有了解过MOE模型吗?
7.讲下PPO
8.MCP和Skill有了解吗?
9.代码:先写打家劫舍,然后改进输出具体打劫了哪些
全部评论
相关推荐
查看14道真题和解析