芯片架构速成教学:GPU篇

GPU 中文翻译是图形处理器,这个目的是快速处理电脑游戏中的图形和画面,说白了是拿来打游戏用的,或者工业级精度调试。

第二点,为什么GPU适合处理ai梯度计算?

因为采用并行计算,也就是大规模并行化,内部含有大量的core。

这个适合也是因为LLM计算的基本上都是矩阵的算法,重复类似的计算,然后呢,GPU有大量的核嘛,可以同时运行。

讲gpu我们还是讲英伟达的卡嘛,我们这篇只讲架构,因为我不是科技宅,我不在乎手机的配置有什么,我也不在乎这个显卡多贵多快,这个与我而言是无效的信息,同样的,我也不花太多时间在媒体平台上,因为我不关心其他人今天吃了什么,今天又去那里玩了,我真正关心的是时政,或者这个国家20年之后的模样。

好了,接着讲。这个一般是SM:流式多处理器架构。

SM:一个 GPU 芯片通常包含几十到上百个 SM。

它的作用: 每个 SM 都是一个独立的计算单元,可以同时处理不同的任务流。

CUDA Cores:SM 内部的最小计算单元,就是“核心”数量。作用也就是:专门执行简单的数学运算

Tensor Cores(张量核心): 现代 GPU 专为 AI 和深度学习添加的特殊计算核心(从 NVIDIA Volta 架构开始)。

这个东西就是 专门优化用于矩阵乘法(即“张量运算”,是深度学习中最核心的运算)。

有了这个就可以一次性处理更大的数据块,大幅度提升 AI 训练和推理(例如 LLM 的推理)的速度。这就是为什么高性能计算领域的 AI 工程师都非常看重 Tensor Cores 的数量和性能。

显存: 附着在 GPU 芯片旁边的高速内存。用来 存储 AI 模型的参数、权重、计算中间结果(例如 KV Cache)。

重要性: 显存的容量和带宽直接决定了您能运行多大的 AI 模型,以及数据传输的速度。您的 LLM 优化问题(如 PageAttention)就是在解决如何更高效地管理和使用这个“仓库”。

那么其实给我下一篇讲怎么优化给了条件了,所有的优化都是在芯片架构上来的。

#聊聊我眼中的AI#

放一些相关的,这里算是大模型的进阶版了。这个封面是吉米。

全部评论

相关推荐

评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务