0814快手大模型训练推理 一面秒挂

Kstar 大模型训练/推理岗  50分钟,面完直接躺地上睡觉zzz

上来直接对着简历里的实习经历和项目问。

1. 有哪些KV Cache Compression的形式?(这边我想先从自己的实习项目开始,再说别的,被对方直接打断“我没有问你的东西,我问有哪些方法”  态度感觉很不友好 )  开始吟唱八股。

2. MHA,MQA,GQA的概念,问怎样广播KV。之后问Multi-head Latent Attention与GQA的数据对应关系(给定hidden_status,Rope,MLA和GQA个数问MLA对应几个GQA),只知道MLA是低秩矩阵乘,但是具体怎么算没自己看过……没答上来。

3. 问了20分钟项目里的KV Cache Sparse计算的细节和vLLM Triton的实现,自我感觉答得还可以。不过其中有一个,问我KV Cache Sparse计算为什么不用掩码,跟他说用掩码会导致不必要的GPU I/O和计算,不如直接传入稀疏矩阵,但对方一直觉得我说的有问题 = =||  

4. DeepSpeed Zero123分别做了什么工作,吟唱完Zero1后被直接打断,让我算如果用Adam优化器,N个参数量的规模下Zero1如何给P个GPU分配数据。磕磕绊绊答出来,但是被说N个参数量还要考虑不同数据类型之间占用的内存不同FP32FP16balabala

5. SmoothQuant原理,为什么要Smooth,参数如何设定(八股启动)  怎样判断一个模型是否适合SmoothQuant,如果用每层激活值分布判断,是看input channel还是output channel(答output,但是说完之后对方不置可否 = =||)

6. AWQ和GPTQ原理,有何区别。

7. 项目里为什么选用不同的量化方法,GPTQ和SmoothQuant对应什么场景。

8. 蒸馏模型怎么做的,用了哪些技术(因为我用的模型是训练组给的蒸馏模型,只知道蒸馏的概念,细节不清楚)

9. 分布式gpu通信原语  all together   all2all  (展开说了分别各自对应什么场景,结果被打断说“我只需要知道你告诉我这是通信原语就行”  觉得我说太多了…急着下班吗)

反问环节有点幽默……我“请问您这边主要是做上游的微调或者modeling还是偏模型工程的推理加速?”  对方沉默一会儿回答“我们是算法”  把我尬住半天,,,

面完1分钟看官网秒挂

#秋招#
全部评论
老哥运气不好,这面试官也有点逆天
10 回复 分享
发布于 2024-08-15 14:30 北京
兄弟没事 面试官纯***
4 回复 分享
发布于 2024-08-16 11:41 北京
MLA看看苏剑林的blog吧,讲得很清楚,那个KVcache压缩的方法有啥啊,MLA不算压缩KVcache吗?
3 回复 分享
发布于 2024-08-16 01:46 北京
佬答的这么强还挂?感觉有点逆天了
2 回复 分享
发布于 2024-08-15 20:27 上海
SmoothQuant 那题,论文里面有提到,是按 in_channel 划分的
1 回复 分享
发布于 2024-08-24 11:18 上海
面试官是不是一戴眼镜的女的
1 回复 分享
发布于 2024-08-19 10:33 上海
大佬,你看的八股在哪里可以了看到
1 回复 分享
发布于 2024-08-16 10:27 广东
面了二十分钟面试官跟我说方向不匹配,把我转到模型小型化部门去了😮
点赞 回复 分享
发布于 2024-10-10 15:26 北京
帕琪哥😭
点赞 回复 分享
发布于 2024-09-01 11:54 未知
这个是人才计划吧老哥
点赞 回复 分享
发布于 2024-08-16 15:20 浙江

相关推荐

项目适用岗位:互联网C++后端, 大模型端侧部署 ,自动驾驶/机器人具身智能C++开发1、底层通信组件方案通信模式封装支持兼容多种通信模式普通消息模式:PUB/SUB(发布订阅)、PUSH/PULL(点对点通信)RPC 模式:通过ZMQ_REP、ZMQ_REQ 封装 RPC 功能RPC功能支持 RPC 方法的动态注册提供默认的 RPC 方法列表查询支持 RPC 调用2、Master模块(实现思路:类似ROS1 Master功能, 更轻量化)背景:分布式大模型系统中,多个节点(如llm/vlm, asr,tts, camera,yolo)需要动态发现彼此并高效通信,外部用户可以动态管理节点内任务调度​​节点注册与发现​实现轻量化内存kv缓存数据库:存储节点元信息;并提高sql查询接口,供节点动态通信节点启动时向Master模块注册,上报自身元信息;节点通信时自动匹配动态任务调度分配设计用户请求-任务匹配机制:外部用户仅封装简易数据包请求,可实现动态控制各个模块(启停/llm推理等)3、Channel模块封装上层发布-订阅(PUB/SUB)和点对点通信(PUSH/PULL)混合通信模式设计闭包,通过闭包将​​网络层​​(ZeroMQ)与​​业务层​​(用户回调)解耦,同时隐式维护了通信上下文状态。4、Infra基础架构模块rpc分布式控制指令下发+异步​事件驱动架构​​注册rpc_setup/rpc_pause等分布式控制接口->注册eventpp事件监听->上层触发rpc调用 -> 添加eventpp事件队列中-> 异步事件驱动->各子类Setup/Pause等功能接口标准化控制协议​​基于抽象接口(Setup/Pause等)实现跨模块统一管控,支持LLM/ASR/TTS等异构节点无缝集成5、TASK模块与Infra模块关系:类似与进程和线程之间关系,Infra模块负责资源分配和流程管控,TASK模块是真正干活的,干的活如下:各模块中模型生命周期管理(加载/卸载)infra推理包装回调输出等等            
Sor大白:项目适用岗位:互联网C++后端, 大模型端侧部署 ,自动驾驶/机器人具身智能C++开发
点赞 评论 收藏
分享
评论
18
121
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务