大模型算法日常实习-字节- TT搜索
攒攒人品!有面试过同岗的朋友欢迎评论区交流
项目:
1. 意图识别具体分哪几类?是怎么做的?
2. 如果是多意图该怎么处理?(单标签 vs 多标签分类)
3. 场景题:动态意图问题:某个关键词词意图随时间/热点变化,模型如何适应?
4. RAG在意图识别的作用
5. 3B模型大流量场景下,有什么办法既能利用3B模型的效果,又不需要实时推理?
6. vllm技术优势 为什么推理性能好
1. 为什么选Qwen做裁判?有没有做过不同模型版本、参数的消融实验?交付指标是什么?
3. dpo的正反馈样例具体指什么?是人工标的还是线上的?
4. SFT后做DPO:DPO和RLHF(PPO)的区别是什么?
5. 如果没有 Reference Model(参考模型),去做RL/DPO训练,会产生什么后果?(考察:KL散度约束的作用,防止Reward Hacking和语言崩坏)。
八股
1. DeepSeek-R1:熟悉吗?它的训练或结构创新点是什么? (r1-zero 和 r1)
2. GRPO:GRPO和PPO的区别?
3. 在RL中,如果模型每次Rollout都随机不出正确答案(一直0分),导致训练停滞,该怎么解决?
Lc 239 滑动窗口最大值
项目:
1. 意图识别具体分哪几类?是怎么做的?
2. 如果是多意图该怎么处理?(单标签 vs 多标签分类)
3. 场景题:动态意图问题:某个关键词词意图随时间/热点变化,模型如何适应?
4. RAG在意图识别的作用
5. 3B模型大流量场景下,有什么办法既能利用3B模型的效果,又不需要实时推理?
6. vllm技术优势 为什么推理性能好
1. 为什么选Qwen做裁判?有没有做过不同模型版本、参数的消融实验?交付指标是什么?
3. dpo的正反馈样例具体指什么?是人工标的还是线上的?
4. SFT后做DPO:DPO和RLHF(PPO)的区别是什么?
5. 如果没有 Reference Model(参考模型),去做RL/DPO训练,会产生什么后果?(考察:KL散度约束的作用,防止Reward Hacking和语言崩坏)。
八股
1. DeepSeek-R1:熟悉吗?它的训练或结构创新点是什么? (r1-zero 和 r1)
2. GRPO:GRPO和PPO的区别?
3. 在RL中,如果模型每次Rollout都随机不出正确答案(一直0分),导致训练停滞,该怎么解决?
Lc 239 滑动窗口最大值
全部评论
相关推荐
03-30 00:09
吉林大学 C++ 青年牛马:来了,链接在这:https://github.com/0voice/2026-Computer-Spring-Recruitment-Job-Compilation


点赞 评论 收藏
分享
查看3道真题和解析