2024-08-15 11:06 已编辑中国科学技术大学算法工程师发布于江苏

关注

0814快手大模型训练推理一面秒挂

Kstar 大模型训练/推理岗  50分钟，面完直接躺地上睡觉zzz

上来直接对着简历里的实习经历和项目问。

1. 有哪些KV Cache Compression的形式？（这边我想先从自己的实习项目开始，再说别的，被对方直接打断“我没有问你的东西，我问有哪些方法”  态度感觉很不友好）  开始吟唱八股。

2. MHA，MQA，GQA的概念，问怎样广播KV。之后问Multi-head Latent Attention与GQA的数据对应关系（给定hidden_status，Rope，MLA和GQA个数问MLA对应几个GQA），只知道MLA是低秩矩阵乘，但是具体怎么算没自己看过……没答上来。

3. 问了20分钟项目里的KV Cache Sparse计算的细节和vLLM Triton的实现，自我感觉答得还可以。不过其中有一个，问我KV Cache Sparse计算为什么不用掩码，跟他说用掩码会导致不必要的GPU I/O和计算，不如直接传入稀疏矩阵，但对方一直觉得我说的有问题 = =||

4. DeepSpeed Zero123分别做了什么工作，吟唱完Zero1后被直接打断，让我算如果用Adam优化器，N个参数量的规模下Zero1如何给P个GPU分配数据。磕磕绊绊答出来，但是被说N个参数量还要考虑不同数据类型之间占用的内存不同FP32FP16balabala

5. SmoothQuant原理，为什么要Smooth，参数如何设定（八股启动）  怎样判断一个模型是否适合SmoothQuant，如果用每层激活值分布判断，是看input channel还是output channel（答output，但是说完之后对方不置可否 = =||）

6. AWQ和GPTQ原理，有何区别。

7. 项目里为什么选用不同的量化方法，GPTQ和SmoothQuant对应什么场景。

8. 蒸馏模型怎么做的，用了哪些技术（因为我用的模型是训练组给的蒸馏模型，只知道蒸馏的概念，细节不清楚）

9. 分布式gpu通信原语  all together   all2all  （展开说了分别各自对应什么场景，结果被打断说“我只需要知道你告诉我这是通信原语就行”  觉得我说太多了…急着下班吗）

反问环节有点幽默……我“请问您这边主要是做上游的微调或者modeling还是偏模型工程的推理加速？”  对方沉默一会儿回答“我们是算法”  把我尬住半天，，，

面完1分钟看官网秒挂

全部评论

推荐最新楼层

大连理工大学自然语言处理

老哥运气不好，这面试官也有点逆天

10 回复分享

发布于 2024-08-15 14:30 北京

牛客557654141号

门头沟学院 C++

兄弟没事面试官纯***

5 回复分享

发布于 2024-08-16 11:41 北京

西安交通大学算法工程师

MLA看看苏剑林的blog吧，讲得很清楚，那个KVcache压缩的方法有啥啊，MLA不算压缩KVcache吗？

4 回复分享

发布于 2024-08-16 01:46 北京

东南大学 C++

佬答的这么强还挂？感觉有点逆天了

2 回复分享

发布于 2024-08-15 20:27 上海

哼哼确认了

武汉大学算法工程师

SmoothQuant 那题，论文里面有提到，是按 in_channel 划分的

1 回复分享

发布于 2024-08-24 11:18 上海

石家庄石门实验学校深度学习

面试官是不是一戴眼镜的女的

1 回复分享

发布于 2024-08-19 10:33 上海

牛客375965679号

门头沟学院深度学习

大佬，你看的八股在哪里可以了看到

1 回复分享

发布于 2024-08-16 10:27 广东

想去毕业旅行的华夫饼人狠话不多

北京理工大学算法工程师

面了二十分钟面试官跟我说方向不匹配，把我转到模型小型化部门去了😮

点赞回复分享

发布于 2024-10-10 15:26 北京

门头沟学院 C++

帕琪哥😭

点赞回复分享

发布于 2024-09-01 11:54 未知

爱哭的等烟雨

香港城市大学算法工程师

这个是人才计划吧老哥

点赞回复分享

发布于 2024-08-16 15:20 浙江

03-15 10:35

广西大学算法工程师

快手 AI Agent开发二面

1 . RAG 怎么评测，有哪些维度，那些指标RAG 的评测一般分成检索、生成、端到端三层。检索层主要看正确证据有没有被找回来，常用 Recall@K、HitRate@K、MRR、NDCG；生成层主要看答案对不对、是不是基于证据回答，常看 Answer Correctness、Faithfulness、Relevance、Completeness、Citation Accuracy；端到端层更偏业务效果，比如用户满意度、追问率、拒答率、时延和成本。真正做项目时不会只看最终答案，因为答案错可能是召回错、重排错、上下文拼接错，也可能是模型生成错。2. 数据集包括什么RAG 的数据集一般不只是知识库...

AI-Agent面试实战...

点赞评论收藏

分享

03-25 22:45

江南大学 golang

快手AI infra(偏推理)暑期留用实习，一面

1.拷打项目推理框架算子如何优化的如何构建Memory pool的如何对框架进行测试的？数据量有多少2.八股Vllm的page attention了解吗？chunk prefill是如何实现的？continous batching了解吗？3.leetcode二维数组每行有序，求第K小的元素（prioirty_queue，只写出来暴力）

查看7道真题和解析

点赞评论收藏

分享

04-01 21:17

中国科学技术大学 C++

快手推理一面凉经

周一发面试通知，周三约面，还在准备笔试题，好多项目相关的东西和基础知识都没总结和梳理，直接凉凉。项目会问很细节很细节的东西，显存占用，模型选择等等来看你是不是真动手做了项目，但是由于项目是很久前做的了，有些地方实在记不太清。主要还是由项目展开，所以还是要把项目好好滚熟。推理八股都没答上来，有点尴尬，回答一道面试官笑一次哈哈哈啊啊哈。但是整体来说体验感还行，看到我不会面试官直接下一题了，说没事没事回去再补一下基础知识。算是暑期的第一个推理方向的面试，也算是给我查缺补漏了，希望后面的面试能吸取教训，基础问题必须秒答

查看1道真题和解析

点赞评论收藏

分享

03-23 12:54

门头沟学院 Java

快手 Ai infra一面拷打

继续来分享下之前的面经~欢迎友好讨论，信息共享1. 拷打项目2. 有没有了解过AF分离，他是为了解决什么问题，既然有PD分离了，为什么还要AF分离？3. 有没有读过flash attention的代码，V2比起V1做了哪些改进？细聊一下他是怎么改进的。有没有了解最近的V4版本？4. 大模型的一层有几个线性层？TP的时候怎么切的？这样子做的原因是什么？有什么思路优化中间的allreduce吗？5. 看过ray的底层实现吗？它有什么特性，你的课题研究中是怎么使用ray的？6. 聊一下你所找到的cuda gemm的优化方法7. leetcode 单词接龙

查看7道真题和解析

点赞评论收藏

分享

04-08 07:20

电子科技大学算法工程师

快手后端ai agent算法面经分享

继续来分享下最近的面经~欢迎友好讨论，信息共享1. Transformer 为什么能替代 RNN 成为大模型主流架构？2. Self-Attention 的计算过程是什么，时间复杂度为什么高？3. Multi-Head Attention 的作用是什么，为什么要分多个头？4. 位置编码为什么必要，绝对位置编码和相对位置编码有什么区别？5. 什么是 KV Cache，它为什么能显著提升推理效率？6. Prefix Cache 和 KV Cache 有什么区别，分别适合什么场景？7. 为什么大模型推理通常是 memory bound，而不是 compute bound？8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么？9. Continuous Batching 解决了什么问题，为什么对推理服务很重要？10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里？11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出？12. 贪心解码、束搜索、随机采样分别适合什么生成任务？13. 重复惩罚和长度惩罚分别是为了解决什么问题？14. 为什么模型有时会出现“复读机”现象，通常怎么缓解？15. 量化是什么，INT8、INT4、FP16 的核心区别是什么？16. 推理量化会对模型效果造成什么影响，如何评估是否值得量化？17. 张量并行、流水线并行、数据并行分别适合哪个阶段？18. 单机多卡部署大模型时，通信开销主要来自哪里？19. 为什么 GPU 显存是大模型部署的核心约束之一？20. 模型参数量、上下文长度、并发数三者之间是什么关系？21. 什么是 MoE 模型，为什么它能在参数规模很大时控制推理成本？

查看21道真题和解析

点赞评论收藏

分享

评论

20

130

招聘动态

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

米哈游2026校园招聘

应届生春招&全年实习生专项

招商银行信用卡中心

2027届暑期训练营

阿里巴巴集团

2027届实习生校园招聘

正浩创新EcoFlow

2026届春季校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 父母问你工作找得怎么样，怎么回 #

9427次浏览 127人参与

# 面试被问期望薪资时该如何回答 #

390028次浏览 2178人参与

# 厦门银行科技岗值不值得投 #

19722次浏览 427人参与

# 哪些公司面试还在问八股？ #

4678次浏览 54人参与

# 想从事Agent应该学习哪些技术？ #

1956次浏览 59人参与

# 从投递到OC，你用了多久 #

9463次浏览 79人参与

# 你的秋招第一面感觉怎么样 #

146952次浏览 821人参与

# 有哪些公司在面试时考察AICoding？ #

3393次浏览 45人参与

# 什么人最适合大厂？ #

4715次浏览 41人参与

# HR面都在聊什么？ #

3295次浏览 44人参与

# AI时代还有必要刷leetcode吗？ #

1899次浏览 30人参与

# 你觉得机械有必要实习吗 #

82264次浏览 515人参与

# 哪一刻你突然觉得实习“有点值了” #

7397次浏览 54人参与

# 一人一道大厂面试题 #

134201次浏览 1334人参与

# kpi面有什么特征 #

106218次浏览 506人参与

# 硬件人的简历怎么写 #

341380次浏览 3121人参与

# 通信硬件2023笔面经 #

53781次浏览 322人参与

# 总结:哪家公司最喜欢泡池子 #

172070次浏览 620人参与

# 稳定和高薪机械人更看重哪个？ #

582594次浏览 5568人参与

# 四大天坑是哪四家？ #

113898次浏览 246人参与

# 计算机有哪些岗位值得去？ #

395738次浏览 2942人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务