芯片架构速成教学:GPU篇
GPU 中文翻译是图形处理器,这个目的是快速处理电脑游戏中的图形和画面,说白了是拿来打游戏用的,或者工业级精度调试。
第二点,为什么GPU适合处理ai梯度计算?
因为采用并行计算,也就是大规模并行化,内部含有大量的core。
这个适合也是因为LLM计算的基本上都是矩阵的算法,重复类似的计算,然后呢,GPU有大量的核嘛,可以同时运行。
讲gpu我们还是讲英伟达的卡嘛,我们这篇只讲架构,因为我不是科技宅,我不在乎手机的配置有什么,我也不在乎这个显卡多贵多快,这个与我而言是无效的信息,同样的,我也不花太多时间在媒体平台上,因为我不关心其他人今天吃了什么,今天又去那里玩了,我真正关心的是时政,或者这个国家20年之后的模样。
好了,接着讲。这个一般是SM:流式多处理器架构。
SM:一个 GPU 芯片通常包含几十到上百个 SM。
它的作用: 每个 SM 都是一个独立的计算单元,可以同时处理不同的任务流。
CUDA Cores:SM 内部的最小计算单元,就是“核心”数量。作用也就是:专门执行简单的数学运算
Tensor Cores(张量核心): 现代 GPU 专为 AI 和深度学习添加的特殊计算核心(从 NVIDIA Volta 架构开始)。
这个东西就是 专门优化用于矩阵乘法(即“张量运算”,是深度学习中最核心的运算)。
有了这个就可以一次性处理更大的数据块,大幅度提升 AI 训练和推理(例如 LLM 的推理)的速度。这就是为什么高性能计算领域的 AI 工程师都非常看重 Tensor Cores 的数量和性能。
显存: 附着在 GPU 芯片旁边的高速内存。用来 存储 AI 模型的参数、权重、计算中间结果(例如 KV Cache)。
重要性: 显存的容量和带宽直接决定了您能运行多大的 AI 模型,以及数据传输的速度。您的 LLM 优化问题(如 PageAttention)就是在解决如何更高效地管理和使用这个“仓库”。
那么其实给我下一篇讲怎么优化给了条件了,所有的优化都是在芯片架构上来的。
#聊聊我眼中的AI#
放一些相关的,这里算是大模型的进阶版了。这个封面是吉米。
查看4道真题和解析
