2024-08-15 11:06 已编辑中国科学技术大学算法工程师发布于江苏

关注

0814快手大模型训练推理一面秒挂

Kstar 大模型训练/推理岗  50分钟，面完直接躺地上睡觉zzz

上来直接对着简历里的实习经历和项目问。

1. 有哪些KV Cache Compression的形式？（这边我想先从自己的实习项目开始，再说别的，被对方直接打断“我没有问你的东西，我问有哪些方法”  态度感觉很不友好）  开始吟唱八股。

2. MHA，MQA，GQA的概念，问怎样广播KV。之后问Multi-head Latent Attention与GQA的数据对应关系（给定hidden_status，Rope，MLA和GQA个数问MLA对应几个GQA），只知道MLA是低秩矩阵乘，但是具体怎么算没自己看过……没答上来。

3. 问了20分钟项目里的KV Cache Sparse计算的细节和vLLM Triton的实现，自我感觉答得还可以。不过其中有一个，问我KV Cache Sparse计算为什么不用掩码，跟他说用掩码会导致不必要的GPU I/O和计算，不如直接传入稀疏矩阵，但对方一直觉得我说的有问题 = =||

4. DeepSpeed Zero123分别做了什么工作，吟唱完Zero1后被直接打断，让我算如果用Adam优化器，N个参数量的规模下Zero1如何给P个GPU分配数据。磕磕绊绊答出来，但是被说N个参数量还要考虑不同数据类型之间占用的内存不同FP32FP16balabala

5. SmoothQuant原理，为什么要Smooth，参数如何设定（八股启动）  怎样判断一个模型是否适合SmoothQuant，如果用每层激活值分布判断，是看input channel还是output channel（答output，但是说完之后对方不置可否 = =||）

6. AWQ和GPTQ原理，有何区别。

7. 项目里为什么选用不同的量化方法，GPTQ和SmoothQuant对应什么场景。

8. 蒸馏模型怎么做的，用了哪些技术（因为我用的模型是训练组给的蒸馏模型，只知道蒸馏的概念，细节不清楚）

9. 分布式gpu通信原语  all together   all2all  （展开说了分别各自对应什么场景，结果被打断说“我只需要知道你告诉我这是通信原语就行”  觉得我说太多了…急着下班吗）

反问环节有点幽默……我“请问您这边主要是做上游的微调或者modeling还是偏模型工程的推理加速？”  对方沉默一会儿回答“我们是算法”  把我尬住半天，，，

面完1分钟看官网秒挂

全部评论

推荐最新楼层

大连理工大学自然语言处理

老哥运气不好，这面试官也有点逆天

10 回复分享

发布于 2024-08-15 14:30 北京

牛客557654141号

门头沟学院 C++

兄弟没事面试官纯***

5 回复分享

发布于 2024-08-16 11:41 北京

西安交通大学算法工程师

MLA看看苏剑林的blog吧，讲得很清楚，那个KVcache压缩的方法有啥啊，MLA不算压缩KVcache吗？

4 回复分享

发布于 2024-08-16 01:46 北京

东南大学 C++

佬答的这么强还挂？感觉有点逆天了

2 回复分享

发布于 2024-08-15 20:27 上海

哼哼确认了

武汉大学算法工程师

SmoothQuant 那题，论文里面有提到，是按 in_channel 划分的

1 回复分享

发布于 2024-08-24 11:18 上海

石家庄石门实验学校深度学习

面试官是不是一戴眼镜的女的

1 回复分享

发布于 2024-08-19 10:33 上海

牛客375965679号

门头沟学院深度学习

大佬，你看的八股在哪里可以了看到

1 回复分享

发布于 2024-08-16 10:27 广东

想去毕业旅行的华夫饼人狠话不多

北京理工大学算法工程师

面了二十分钟面试官跟我说方向不匹配，把我转到模型小型化部门去了😮

点赞回复分享

发布于 2024-10-10 15:26 北京

门头沟学院 C++

帕琪哥😭

点赞回复分享

发布于 2024-09-01 11:54 未知

爱哭的等烟雨

香港城市大学算法工程师

这个是人才计划吧老哥

点赞回复分享

发布于 2024-08-16 15:20 浙江

03-21 14:56

门头沟学院 C++

腾讯 PC客⼾端-C++ ⼀⾯

1. 自我介绍2. C++ 中的智能指针都有哪些，分别解决什么问题答案：常见的智能指针主要是 unique_ptr、shared_ptr、weak_ptr，另外还有早期遗留的 auto_ptr，但它已经被废弃。unique_ptr 表示独占所有权，同一时刻只有一个指针拥有对象，不能拷贝只能移动，开销小，最适合所有权明确的场景。shared_ptr 表示共享所有权，多个对象都可以持有同一资源，底层通常有引用计数和控制块，适合多个模块共同管理一个对象的场景。weak_ptr 不拥有对象，只是观察者，通常用来打破 shared_ptr 循环引用，或者在不延长对象生命周期的前提下探测对象是否还活着。工...

C++ 常考面试题总结

点赞评论收藏

分享

03-07 22:40

门头沟学院人工智能

字节大模型算法实习三面技术面

攒人品中，祝大家都能拿到满意的Offer！1.项目拷打2.说说你的大模型实习：做了什么、遇到什么问题、怎么评估效果3.YaRN 你怎么理解？跟其他长文本/外推方案相比差异在哪4.RoPE 怎么跟 MLA 放一起讲；只在短文本训过的模型，长文本外推你会怎么做5.flash-attn / Megatron-LM：你了解哪些点6.词你了解哪些；像 DeepSeek 这类的分词思路跟 BPE 有什么不同6.字符串解码这类题一般怎么考，你会怎么处理边界7.手写 FFN：结构怎么写，维度怎么对

点赞评论收藏

分享

03-22 15:22

门头沟学院 C++

腾讯互娱 C++开发一面

1. cpp 的虚函数和纯虚函数答案：虚函数是为了支持运行时多态。父类把成员函数声明为 virtual 之后，子类可以重写它，通过父类指针或引用调用时，会根据对象的真实类型决定执行哪个版本。纯虚函数是在虚函数声明后写上 = 0，表示这个函数只定义接口、不提供默认实现。只要类里存在纯虚函数，这个类通常就是抽象类，不能直接实例化，派生类如果不实现这些纯虚函数，也不能实例化。虚函数强调“可以重写”，纯虚函数强调“必须实现”。工程里纯虚函数经常用于定义接口层，比如网络连接接口、日志接口、存储接口。代码： #include <iostream> using namespace std; cl...

C++ 常考面试题总结

点赞评论收藏

分享

03-08 22:35

门头沟学院推荐算法

快手agent算法实习一面攒人品

发一下问题给大家参考，攒攒人品！1*Agent与Workflow的区别是什么？在实际业务中，你会根据什么标准选择对应的方案2*设计一个企业级Agent架构，如何实现 BFF、Tool Server 与 Worker 的多组件拆分3*在企业级Agent中，怎么实现安全与隔离？权限管理、审计与日志追踪具体的落地方案是什么？4*说一下什么是MCP？它在Agent生态中解决了什么痛点？5*MCP 有哪些具体的分类？Transport 层是怎么工作的？如何开发一个 MCP Server？6*谈谈你对 Claude Code、Manus 这类 Agent 产品的理解，它们的架构逻辑与传统 Chat Agent 有什么差别？它工程部分的能力是怎么实现的？7*如何实现 Claude 的 Agent Research 方法论？Deepsearch 场景下需要配备哪些工具？基础设施与安全挑战在哪里？8*在多轮对话中，分别实现 Short-term memory、Long-term memory 与 Task memory怎么做？9*上下文机制的完整实现流程是怎样的？说一下它的写入策略、读取策略以及 Rerank 的做法是怎么样的。10*当上下文超过 Token 限制时，组合使用 Rolling Summary、State Extraction 与 RAG 这三段式策略？11*说一下Prefix Caching 和 KV Cache 的原理。为什么缓存的是 K 和 V 而不是 Q？不再计算前缀具体节省了哪部分算力？12*引入 Prefix Caching 后，Attention 的计算复杂度是怎么下降的？13*Few-shot在Agent评测中是为了提升能力还是降低方差？在评测Pipeline的哪个阶段注入？如何防止过拟合？14*对比一下Transformer中Self-attention与FFN的作用差异。15*为什么 Prefix Caching 只能优化 Attention 部分，而无法优化 FFN 部分？16*从 Softmax 的数学角度解释，为什么在计算过程中加上负无穷就能让注意力权重变为 0？17*什么是掩码？你分别说一下Causal Mask与 Padding Mask 的作用是什么。

查看17道真题和解析

点赞评论收藏

分享

03-09 15:13

广西大学算法工程师

AI-Agent 面试题汇总 - 大模型篇

一、大语言模型基础1. 目前主流的开源模型体系有哪些？主流开源模型体系包括：LLaMA 系、Qwen 系、GLM/ChatGLM 系、Mistral/Mixtral 系、Baichuan 系、DeepSeek 系、InternLM、Yi 等。面试里建议从以下维度比较：参数规模（7B/13B/70B…）上下文长度（8K/32K/128K…）多语言能力工具调用能力（function calling / agent）推理成本与部署难度开源协议（是否可商用）2. Prefix LM 和 Causal LM 区别是什么？Causal LM：严格自回归，token 只能看左侧历史（下三角 mask）。Pr...

AI-Agent面试实战...

点赞评论收藏

分享

评论

20

130

招聘动态

客路2026产研校招

AI网申助手

网申字段一键填写

百度

2027届暑期实习

招商银行数字金融训练营

火热报名中

新华三

2026届春季校园招聘

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

27届校招宝典

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得大几开始实习最合适？ #

16488次浏览 187人参与

# 你都用vibe coding做过什么？ #

10125次浏览 435人参与

# 招商银行数字金融训练营 #

104789次浏览 885人参与

# 面试被问到不会的问题，你怎么应对？ #

13483次浏览 181人参与

# AI Coding实战技巧 #

8298次浏览 188人参与

# 做完笔试后你收到面试了吗？ #

16355次浏览 178人参与

# 厦门银行科技岗值不值得投 #

13818次浏览 311人参与

# 你见过哪些招聘隐形歧视？ #

12168次浏览 111人参与

# 你现在一天AI几次？ #

6945次浏览 93人参与

# Vibe Coding 会干掉初级岗位吗？ #

12905次浏览 171人参与

# 大厂实习和小厂实习最大的区别是什么？ #

26969次浏览 203人参与

# 如果人生可以debug你会改哪一行? #

5967次浏览 107人参与

# 恒生电子笔试 #

17935次浏览 138人参与

# 牛友の3月总结 #

18080次浏览 160人参与

# uu们，春招你还来吗？ #

53472次浏览 320人参与

# 面试吐槽bot #

184759次浏览 899人参与

# 材料专业就业可以去哪些企业岗位 #

61998次浏览 391人参与

# 七猫笔试 #

6416次浏览 46人参与

# Claude Code泄露源码 #

8745次浏览 120人参与

# 京东工作体验 #

28563次浏览 135人参与

# 26届春招投递记录 #

1549次浏览 25人参与

# 面试中，你被问过哪些奇葩问题？ #

92446次浏览 902人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务