12-18 20:29 门头沟学院人工智能发布于山东

关注

大模型推理加速：KVCache和Pageattendtion

首先声明不搞infra的不用看，我现在看底层了，

本篇内容基于Efficient Memory Management for Large Language Model Serving with PagedAttention》 (SOSP 2023)出处：加州大学伯克利分校（UC Berkeley）

这篇里面讲了vllm，那么我们就先讲vllm。

LLM 模型在推理阶段的显存有三部份组成：模型权重、KVCache 显存占用以及激活值显存占用。

而今天我们是速成教程，所以又要体现深度，那么就先讲KVCache，

这个本质上是一种通用的思路就是减少k，v的计算，采用缓存的机制去减少中间值，

而这个的问题是kv的乘积是会有上限的，因为本来就很大，HBM根本放不下，所以vllm提出思路去优化这个东西，去搞定显存碎片。

同样的在HBM里面存储基本上都是连续存储的，也就是说少了一个，少了10个都是少了。

而现在搞成分页存储，不会出现空缺的。

当全部的空闲HBM被塞满，

这里暂时讲Swapping：

当多余的KV Cache会被提到cpu内存里面。

然后这个是怎么实现的？

基本上逻辑是：

第一步：

当新请求， Block Table分配空闲块的编号。

第二步：

定位物理地址：物理地址 = 物理块ID * 块大小 + (35 % 16) * 每个Token的特征维度。

第三步：

在计算的时候，动态地把这些散乱的地址传给 GPU/NPU。

当同时请求时候就采取写时复制。

当大量人同时询问同一个问题时候，此时采取多序列共享机制，也就是哈希映射：

这么解释呢？就是说记录物理块的地址位置，然后新的相似的token进来，这个block table直接指过去就行。这样就不会出现kv cache无限复制的问题了。

然后同时访问，这个时候hash冲突了，也就是网络请求太多，

那么就LRU，先把最少访问的释放同时触发swapping吧没用的丢出cpu了。

现在最新的技术也就是vllm的发展思路：

1：速度推理加速：投机采样

可以用小模型先给几个词然后大模型验证，这样减少完整跑的神经网络和逻辑。

2：延迟优化减少：切块预处理

太长的token进来，就直接切块然后混在输出里面。

3：解码：多卡

等于一张卡负责算kv cache，一张卡负责decode，甚至一张卡搞promot。

最后总结一下：

Vllm启动后：

Scheduler：负责控制哪些请求该进 Batch，哪些该排队。

Block Manager（块管理器）： Block Table 所在地，负责划拨 HBM 显存块。

Worker：负责在 NPU/GPU 上跑矩阵运算的。

一般是先跑算子这个跑通才能调内存，最后开始调策略。

#硬件/芯片公司工作体验#

机器学习，推理优化，芯片架构。文章被收录于专栏

放一些相关的，这里算是大模型的进阶版了。这个封面是吉米。

全部评论

推荐最新楼层

不愿透露姓名的神秘牛友

12-22 20:40

秋招感概一下

人跟人真的差距太大，不能比。有人至今无offer有人拼尽全力只有一个没得挑有人手拿多个不知怎么选有人签了还要继续找更好的有人因为进不了大厂而苦恼有人进了大厂还要看业务部门是否核心月儿弯弯照九州，几家欢乐几家愁。----------------------------------------------------题主本人双非纯飞舞，先是签了一家，提前去实习了。感觉不是很理想，一时冲动提了离职解约，然后又后悔了，又恬不知耻地问能不能回去。还好hr小姐姐人特别好，跟公司沟通了一下说可以。现在准备二进宫了。只能说在这个环境下，能找到工作都很不容易了，找一个满意的工作更是奢望。知足常乐，一切痛苦焦虑来源于攀比，各位双非的同学能进大厂肯定是好事，进不去也别给自己太大压力，永远有比自己优秀的人。我之前时常在想，我这种即没学历又没能力的人，以后年龄大了被裁了找不到工作怎么办，现在想一想，说不定还没等到那一天就出门被车创思了哈哈，与其现在天天焦虑，不如过好当下。---------------------------------------------------------------------------------------------------------

我要娶个什么名：很好活在当下到头来有人能逃避死亡的真谛吗享受生活吧

双非有机会进大厂吗

点赞评论收藏

昨天 23:42

已编辑

门头沟学院 Java

offer帮选求助

个人背景：双九，偏后端方向，offer求帮选。offer1：base杭州阿里文娱优酷ssp，薪资n * 16，应该也是到顶了，签字费大概是红书2个多月薪，做的电视服务端，工程为主，实习过，mentor说很稳定也比较轻松，上班9.5 8-9 5。offer2：base上海小红书，薪资(n+5) * 16 + 1k期权4年归属，hr说开的最高薪资，签字费1个月薪，做的安全技术，工程算法兼有，leader说wlb和阿里差不多，目前小红书上升期就比较稳定，10 9 5，有杭州office，杭州的人才政策和公积金说是都可以申请，首年后可以转base。首年总包小红书只是稍微多一点，第二年之后小红书明显比阿...

投递小红书等公司6个岗位

点赞评论收藏

12-09 22:29

中山大学算法工程师

阿里大模型面经汇总

1.  注意力机制：请简述 MHA、MQA 和 GQA 三种注意力机制的核心区别。2.  模型架构：Dense 模型与 MoE 模型有何本质区别？3.  路由机制：MoE 模型中，路由（Routing）机制具体是如何工作的？4.  LoRA 微调：请阐述 LoRA 的原理，以及其中 A、B 矩阵的初始化方式和秩（Rank）的设置考量。5.  强化学习：请对比 DPO、PPO 和 GRPO 的原理与区别，并写出 DPO 的 Loss 函数公式。6.  推理加速：vLLM 中使用了哪些关键技术（如 PagedAttention、KV Cache）来优化推理？7.  并行框架：你对 DeepSpeed 这一加速推理与训练框架有多少了解？8.  BM25 算法：请讲解 BM25 算法的计算原理。9.  负载均衡：MoE 模型中专家（Expert）的负载不均衡问题该如何解决？10.  损失函数：能否通过修改损失函数的方式来缓解 MoE 的负载均衡问题？11.  数据分布：SFT 微调数据与预训练数据分布差异较大时，该如何处理？12. Scaling Law：SFT 微调的数据集是越大越好吗？是否存在 Scaling Law 现象？13. 训练稳定性：强化学习（RL）为何存在训练不稳定的问题？既然不稳定为何业界仍广泛使用？14. 三数之和：LeetCode 15. 三数之和。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看14道真题和解析

点赞评论收藏

12-22 13:53

美团_测试开发

考研结束如何准备实习/春招

前言：随着考研刚刚结束，如果感觉考研成绩不符合自己的心理预期的话可以趁着这两三个月准备来年的春招，最好不要等成绩出来或者调剂结束，那个时候春招已经开始或者结束，想要找工作就得和社会上的所有人一起去竞争社招岗位了。调整心态与自身定位调整心态：如果感觉考研的这几个月过的非常压抑的话可以先给自己放几天假，休息一下，一定要调整好自己的心态和状态才能全身心的投入到找工作这条路。自身定位：一直考研的同学可能不知道找工作这个市场到底如何，工作难不难找，究竟能找到什么样子的工作，待遇如何等等。先简单说个结论，找个工作的难度并不高，但是想要找个好的工作确实很有难度。首先要明确自己的学校以及水平如何，自己能找什么...

点赞评论收藏

昨天 10:11

湖南科技大学系统策划

快手昨晚被黑了，这会殃及校招生吗？

快手昨晚被黑产攻击了，这一波，多少人的年终奖没了？不过我还是更关心会不会殃及校招生啊？

小马不爱敲代码：应该不会吧，但是不排除天价罚款，导致股价下跌，然后连锁反应

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 哪些瞬间让你真切感受到了工作的乐趣 #

20458次浏览 86人参与