腾讯 AI LAB 二面

面试官:今天我们面的是 实习岗位
我:啊?
面试官:不好意思看错了,最近面试太多了
1.自我介绍
2.项目介绍(一个小时。。直接联影 面试 PPT 拿过来聊)因为业务几乎一样,一直聊各种细节
大部分都是项目,比较有代表性的有一些
你们如何评估模型的最后的质量?
你们怎么评估训练数据的逻辑?
怎么解决 rag 检索到的内容模型用不上?
还有很多都是项目相关
一个小时左右了,就随便问了几个八股
训练用的 deepspeed 吧?你了解吗?介绍一下?(不记得了。。。最近完全没看这种八股。我说 deepspeed 本质就是模型部署多个在多个卡,一起训练,应该是模型并行还是数据并行来着。。。)
面试官:deepspeed 本质就是数据并行,那你知道这一些并行方式吗?3D 并行之类的(道歉,最近确实没咋看这块,就讲了一下张量并行,数据 模型并行)
面试官:虽然现在都很集成化,但是下去还是要多看看这块,不单单是我这边问,别的面试也可能会问到。
Llama 用 group query atten 了解吗?(大概讲了一下,也没细追问,还好)
面试官:虽然已经一个多小时了,但是出于流程原因还是要这个代码,一个最长公共子串(秒了)

面试官:好,你有啥反问的吗(反问)嗯,我会把今天的情况如实反馈,如果有后续我们会再约面。
求三面
全部评论
我去,AIlab都二面了啊
1 回复 分享
发布于 2024-08-26 22:13 陕西
大佬,请问 ai lab 是哪个事业群下的啊
点赞 回复 分享
发布于 03-28 09:47 北京
deepspeed的zero-3也算是模型并行吧
点赞 回复 分享
发布于 2024-10-09 11:51 江苏
deepspeed应该是数据并行
点赞 回复 分享
发布于 2024-09-30 14:40 上海
请问是实习还是秋招
点赞 回复 分享
发布于 2024-09-29 20:05 广东
目前情况如何
点赞 回复 分享
发布于 2024-08-27 00:00 北京
所以想问下佬,rag检索到的内容模型用不上该怎么解决啊感觉这几次都被问了然后答得都不是很让面试官满意
点赞 回复 分享
发布于 2024-08-26 23:41 上海
手撕是在哪里的
点赞 回复 分享
发布于 2024-08-26 21:23 上海

相关推荐

1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
评论
17
41
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务