大模型暑期实习面经|腾讯音乐娱乐集团 技术研究—自然语言处理

  • 部门:QQ音乐
  • base地:深圳
  • 流程:一面+二面+三面+HR面
  • 推进速度:非常快,每一面在一小时内出结果

一面 50min

  1. 自我介绍
  2. 论文介绍
  3. 什么是MHA
  4. Attention运算公式
  5. 为什么除以根号dk
  6. 介绍现有相对位置编码和绝对位置编码的异同点,都有哪些结构
  7. RoPE的结构
  8. RoPE相比于绝对位置编码的优势是什么?为什么外推性更好?
  9. 为什么RoPE理论上可以无限外推?
  10. RoPE为什么可以利用绝对位置和相对位置的优势?
  11. 介绍RAG项目(基座模型是什么?几b ?全参微调用了多少卡?数据多大?问答对的形式有图片吗?
  12. 对RAG的理解是什么?为什么要用RAG?
  13. BGE模型的结构
  14. 什么是LoRA?有个两层神经网络,参数1万*一万,低秩r =100, LoRA参数量是多少?
  15. 为什么用KV Cache?
  16. KV Cache有哪些优化方法?
  17. 文生图/图生文结构了解吗?文生图的怎么解码的
  18. CLIP了解吗?
  19. Deepseek MOE架构路由机制的细节
  20. 场景题
  21. 手撕:快速排序
  22. 反问

二面 60min

  1. 自我介绍
  2. 论文拷打,提出质疑
  3. RAG项目介绍
  4. 分块的策略是什么
  5. PDF的表格和图片怎么解析的?图片和表格的信息丢失了怎么办?
  6. RAG的关键词检索和重排细节
  7. 异构图方式和传统的多模态拼接方式有什么性能上的改进吗?
  8. 多模态之间的特征的对齐你是怎么做的?现有工作怎么做的
  9. Prompt有什么系统性优化的方法?
  10. 代码:199: 二叉树右视图
  11. 简单介绍一下Prefix Cache ? Deepseek 是怎么开启Prefix Cache的?
  12. 位置编码的作用的实现方式有哪些?
  13. LLM推理部署的时候,会用vLLM, 这主要从哪些方面提升?怎么提升的推理速度?
  14. 文本生成解码策略,贪心搜索和束搜索的优劣是什么?
  15. 实习时间,反问

三面 50min

  1. 自我介绍
  2. 论文拷打,细到实验结果数据
  3. RAG项目400万文字怎么分块,索引,embedding的
  4. 微调的指标和RAG的指标是什么?ROUGE指标怎么计算
  5. 评估方式是不是太简单了,对SFT的指标还有没有更好的
  6. 项目中负责的部分
  7. 用的最多的GPU时间是多少
  8. 有做过多机多卡训练吗
  9. 为什么去前端实习了后又转算法
  10. 对未来的规划是什么,想做什么技术
  11. 实验室的方向是什么
  12. 大模型的预训练和SFT的不同是什么
  13. 限制大模型输入长度的因素有哪些?
  14. 目前的大模型如何解决长上下文?

HR面 30min

主要问项目、规划等,氛围比较轻松

#大模型算法工程师##NLP##大模型##腾讯音乐26届实习#
全部评论
确实厉害,膜拜一下大佬。(许愿三面过)
3 回复 分享
发布于 04-23 00:24 陕西
请问大佬这个岗位都有三面吗,官网流程好像只显示二面+HR面
2 回复 分享
发布于 05-25 16:48 广东
八股这么难么
1 回复 分享
发布于 04-26 07:01 四川
佬了解过是哪个业务线吗,做的什么方向,我目前手上有个集团公线的自然语言处理,在考虑要不要去,不清楚跟 QQ 音乐业务线的差距。
点赞 回复 分享
发布于 05-13 00:41 北京
大佬投了多久约面的
点赞 回复 分享
发布于 04-26 23:20 四川

相关推荐

查看14道真题和解析
点赞 评论 收藏
分享
09-03 20:48
龙岩学院 护士
攒个人品,秋招不指望了,希望春招能有机会上岸吧。------------------------------------------------------没有自我介绍环节,一上来直接拷打实习,边拷打边问八股,基本上是我说一个做的东西,然后面试官就要开始问对应的八股了,记录一下问的八股:1. Qwen 与传统的Transformer模型相比,有什么结构上的改进?2. RMSNorm相较于LayerNorm有什么优势?公式是什么?3. SwiGLU的公式是什么?4. GRPO的公式是什么,这样做为什么更好?5. KL散度的公式是什么,为什么要用KL散度?6. LLM的损失函数是什么?给你一个10w的词表,计算出事的损失值7. GRPO为什么要做clip,直接用SFT后的模型还会不稳定吗?优势度可以怎样改进?8. 为什么你要用GRPO?GPRO结果比之前好多少?显存开销多大?训练一个Step需要多久?奖励函数如何设置的,为什么?有没有想过为什么一开始Reward出现大幅度震荡?GRPO是否一定有效,还有什么解决方法?9. Post-Training 的工作机制,为什么要做三阶段训练?什么情况下应该用GRPO?为什么DeepSeek用了GRPO?如何从V3到R1?10. 微调是如何进行微调的?为什么LoRA能够work?除了LoRA外,还了解哪些微调方法?11. 后训练用的哪个框架?你用过什么框架?如何使用deepspeed进行分布式训练?脚本是你自己写的吗?12. 知道什么Linux命令?13. 用过C++,Java吗?平时用什么多?14. 如何去评价你工作的产出和质量(基本上每个面试官都会问)15. FLUX的工作原理,LoRA在这个地方起到了什么作用?16. 你认为实习过程中哪些是从零到一的工作?(全部!鼠鼠之前学地理的)遇到一个不熟悉的领域,你会如何进行学习?-------------------------------------------------------大概是这些,可能不是很全手撕:删除链表中的节点;快慢指针秒了反问:面试官先介绍了下部门业务,随后反问:1. 为啥初试后又是初试?(可以自己点的,实际上就是二面)2. 后续几轮面试呢?(三轮,还有大老板面)3. 工作强度 (8-9.30左右)4. 这个岗位需要什么样的人? (努力学习新知识,耐心)总而言之美团的面试体验真没的说,面试官会笑这一点就值得夸了,全程没啥压力,但是估计凉了,有些没答好
查看17道真题和解析
点赞 评论 收藏
分享
评论
15
67
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务