03-15 20:01 上海交通大学算法工程师发布于江苏

关注

为什么大模型推理越来越快？聊聊 KV Cache

最近复盘了 KV Cache，给面试/实战一个好记版本：
1）Decoder 生成第 k 个 token 时，历史 token 的 K/V 不必重算，缓存后直接复用；
2）不做缓存会反复算历史注意力，长度一长延迟明显；
3）KV Cache 省算力但吃显存，长上下文时显存压力会成为瓶颈；
4）MHA→MQA→GQA→MLA，本质都在做“少缓存/更聪明缓存”，其中 GQA 是当前工程里很常见的平衡点。

一句话：KV Cache 是速度的来源，注意力变体是显存账本。

#大模型# #推理优化# #面试复盘#

全部评论

推荐最新楼层

04-15 11:15

门头沟学院 Java

小厂 + AI Agent 是不是版本答案？

本人学历是菜鸡，学院本，所以大厂根本不用想，中厂看命。[当然有一些学院本的技术佬也是进入大厂，只是我没有那个实力而已]找了一个多月实习，说句实话——纯 Java 这条路现在真的越来越难了。岗位少、要求高、竞争卷，说“死了”不至于，但对普通人来说已经不友好了。如果还在单押 Java，风险确实挺大。建议在找工作的、学Java的今早换方向，不然苦逼的只有自己。我很庆幸，在大三上学期就嗅到了 AI Agent 的风口，大三基本就搜哈 AI Agent了。这主要得益于去实习看到实习公司的业务主要是AI Agent，且在大三上学期找Java实习的时候，频频受阻，只找到一份5k的实习，薪资不满意，拒绝了，但...

点赞评论收藏

分享

04-18 07:26

已编辑

蚌埠坦克学院嵌入式软件开发

经纬恒润嵌入式二面，PPT 面试真的会把项目拷打得很细

最近接收到学员投稿。这场经纬恒润二面，整体时长大概 60 分钟，和常规那种先问八股、再简单聊项目不太一样。这轮更像是PPT 项目面，面试官会直接围着你的项目内容深挖，而且不是泛泛问思路，是会让你现场打开代码，顺着项目里的函数、调用链、模块逻辑一路往下问。如果项目不是自己真正做过的，或者只是停留在“会讲故事”的程度，这一轮其实压力会很大。面试过程二面一开始还是会先做简单沟通，但重点很快就落到了项目上。面试官主要是按照 PPT 里的项目内容来问，哪里写得细，哪里就会被继续追问。这场面试最明显的特点就是：不是问你项目做了什么，而是问你项目代码到底怎么跑起来的。比如会围着 bootloader 一直问...

查看10道真题和解析

点赞评论收藏

分享

03-26 18:28

杭州电子科技大学嵌入式工程师

有大佬帮忙看看简历吗😭

狄文君：多段项目经历 + 专业技能拉满，这简历很能打，坐等好消息！

点赞评论收藏

分享

02-28 01:18

已编辑

南昌大学后端工程师

28届混子终于写好简历了，求大佬锐评

28届2本非科班大概很快要找实习了，应该是偏ai应用开发方向

黑皮白袜臭脚体育生：把开源经历放个人项目上边应该更好，就像大部分人都把实习经历放个人项目上边

点赞评论收藏

分享

昨天 12:24

南京航空航天大学大数据开发工程师

SQL连续N天活跃用户

题目描述：查询连续登陆不少于3天的新注册用户某产品在2022年2月8日各端口用户注册信息及后几日登录信息如下：该题有两种解题方法，使用row_number排序或者lead窗口函数方法1(row_number)：1.先筛选出login_tb中的user_id在register_tb的user_id，确保都是新注册用户，并考虑对login_tb进行去重，作为t12.对t1使用窗口函数row_number排序，作为t2,通过date_sub生成辅助时间列result，作为t33.对t3按照user_id和result进行group by，通过having筛选出数量大于等于3，最后加上排序易错点：1....

点赞评论收藏

分享

评论

1

2

招聘动态

AI网申助手

网申字段一键填写

龙湖集团数字科技平台

2026届春季招聘&实习生招聘

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

快手

27届实习超多转正机会

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职进度条 #

1238820次浏览 9176人参与

# 第一份工作应该选择高薪还是大平台 #

220889次浏览 1045人参与

# 华泰星战营，提前锁定校招offer #

4966次浏览 284人参与

# 你简历上最心虚的一句话 #

2480次浏览 24人参与

# 考公VS就业，你怎么选？ #

100083次浏览 524人参与

# 哪些公司对双非友好 #

230177次浏览 1237人参与

# 卷__卷不过你们，只能卷__了 #

60087次浏览 757人参与

# 校招第一份工作你干了多久？ #

150241次浏览 631人参与

# 商战，最累的是我们 #

31696次浏览 99人参与

# 国企/银行/研究所公司爆料 #

209355次浏览 920人参与

# 小红书求职进展汇总 #

238542次浏览 1397人参与

# 找工作的破防时刻 #

289656次浏览 2065人参与

# 面试线索爆料 #

127293次浏览 699人参与

# 春节前，你还在投简历吗？ #

43096次浏览 351人参与

# 大疆求职进展汇总 #

699906次浏览 4351人参与

# 字节7000实习来了，你投了吗？ #

44482次浏览 351人参与

# 总结:offer选择，我是怎么选的 #

287493次浏览 1566人参与

# AI时代还有必要刷leetcode吗？ #

51208次浏览 591人参与

# 工作中，努力重要还是选择重要？ #

286109次浏览 2587人参与

# 26届春招投递记录 #

5178次浏览 54人参与

# 机械求职避坑tips #

100392次浏览 580人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务