2022-03-13 17:24 北京科技大学算法工程师

关注

【CV算法上下游】算法工程师需要知道的硬件侧知识

0 导读

端侧设备是整个算法解决方案的重要组成部分，在此将我的公众号文章分享到牛客上，希望能和牛客上的朋友们一起交流学习CV算法以及相应的知识。也欢迎大家关注我的公众号WeThinkIn。

公众号原文：

1 写在前面

【CV算法上下游】栏目专注于分享CV算法与机器学习辅助侧的知识，工具，平台与一些经验总结，欢迎大家一起交流学习

大家好，我是Rocky。

前几天在WeThinkIn技术交流群里，很多小伙伴探讨起了GPU的一些话题，我也参与了探讨，场面一度非常热烈。

GPU乃至硬件侧的整体逻辑，是CV算法工作中必不可少的组成部分，也是算法模型所依赖的重要物理载体。

故本文将聚焦于GPU，深度学习的端侧设备，算法工程师如何看待硬件等维度的分享，希望能和大家一起交流学习～

So，enjoy（与本文的BGM一起食用更佳哦）：

2 干货篇

2.1 目录先行

GPU的相关知识
深度学习的端侧设备
算法工程师如何看待硬件侧

2.2 GPU的相关知识

现在AI行业有个共识，认为是数据的爆发和算力的突破开启了深度学习在计算机视觉领域的“乘风破浪”，而其中的算力，主要就是指以GPU为首的计算平台。

GPU（Graphical Processing Unit）从最初用来进行图形处理和渲染（玩游戏），到通过CUDA/OpenCL库以及相应的工程开发之后，成为深度学习模型在学术界和工业界的底层计算工具，其有以下的一些特征：

异构计算：GPU能作为CPU的协处理器与CPU协同运算。
单指令流多数据流（SIMD）架构：使得同一个指令（比如对图像数据的一些操作），可以同时在多个像素点上并行计算，从而得到比较大的吞吐量，深度学习中大量的矩阵操作，让GPU成为一个非常适合的计算平台。
多计算核心。比如Nvidia的GTX980GPU中，在和i7-5960CPU差不多的芯片面积上，有其128倍的运算速度。GTX980中有16个流处理单元，每个流处理单元中包含着128个CUDA计算核心，共有2048个GPU运算单元，与此同时i7-5960CPU只有16个类似的计算单元。
CUDA模块。作为GPU架构中的最小单元，它的设计和CPU有着非常类似的结构，其中包括了一个浮点运算单元，整型运算单元以及控制单元。一个流处理单元中的CUDA模块将执行同一个指令，但是会作用在不同的数据上。多CUDA模块意味着GPU有更加高的计算性能，但更重要的是在算法侧有没有高效地调度和使用。
计算核心频率。即时钟频率，代表每一秒内能进行同步脉冲次数。就核心频率而言，CPU要高于GPU。由于GPU采用了多核逻辑，即使提高一些频率，其实对于总体性能影响不会特别大。
内存架构。GPU的多层内存架构包括全局内存，2级缓存，和芯片上的存储（包括寄存器，和1级缓存共用的共享内存，只读/纹理缓存和常量缓存）。

在使用GPU时，在命令行输入nvidia-smi命令时会打印出一张表格，其中包含了GPU当时状态的所有参数信息。

CUDA/cuDNN/OpenCL科普小知识：

CUDA是NVIDIA推出的用于GPU的并行计算框架。
cuDNN是NVIDIA打造的针对深度神经网络的加速库，是一个用于深层神经网络的GPU加速库。
OpenCL是由苹果（Apple）公司发起，业界众多著名厂商共同制作的面向异构系统通用目的并行编程的开放式、免费标准，也是一个统一的编程环境。

2.3 深度学习的端侧设备

本章节我们从端侧设备的整体架构和与深度学习工程落地适配的角度切入，不涉及嵌入式或者其他底层细节知识。

深度学习的端侧设备，又可以叫做边缘计算设备，深度学习特别是CV领域中，模型+端侧设备的组合能够加快业务的即时计算，决策和反馈能力，极大释放AI可能性。

深度学习的端侧设备主要由ARM架构的CPU+ GPU/TPU/NPU等协处理器 + 整体功耗 + 外围接口 + 工具链等部分组成，也是算法侧对端侧设备进行选型要考虑的维度。

在实际业务中，根据公司的不同，算法工程师涉及到的硬件侧范围也会不一样。如果公司里硬件和算法由两个部门分别负责，那么算法工程师最多接触到的硬件侧知识就是硬件性能评估，模型转换与模型硬件侧验证，一些硬件高层API接口的开发与使用；如果公司里没有这么细分的部门，那么算法工程师可能就会接触到端侧的视频编解码，模型推理加速，Opencv，FFmpeg，Tensor RT，工具链开发等角度的知识。

2.4 算法工程师如何看待硬件侧

首先，整体上还是要将硬件侧工具化，把端侧设备当做算法模型的一个下游载体，会熟练的选型与性能评估更加重要。

端侧设备是算法产品整体解决方案中一个非常重要的模块，算法+硬件的范式将在未来的边缘计算与万物智能场景中持续发力。

在日常业务中，算法模型与端侧设备的适配性与兼容性是必须要考虑的问题，端侧设备是否兼容一些特殊的网络结构？算法模型转化并部署后，精度是否下降？功耗与耗时能否达标？等等都让算法工程师的模型设计逻辑有更多的抓手。

3 精致的结尾

最后，希望本文能给大家带来关于硬件侧的一些思考～本来还想写神经网络的显存分析，但怕篇幅过长影响阅读。我准备后续单独整一篇，大家敬请期待！

最后的最后，我运营***************************************************************************************************************进群～）

全部评论

推荐最新楼层

09-21 18:15

门头沟学院测试工程师

9.17京东测开二面面经

二面几乎没有拷打，纯聊天了40min左右（如果真录取了我将虔诚拥护东子问为什么开发转测试问问觉得自己的优势是什么都面过哪些公司base为什么选成都愿不愿意提前来实习项目中pytest怎么用的代码覆盖率怎样给了个测试场景，先编写一个java工具类，读取数字，判断合不合法，问了很多可能出现的情况，测试用例怎么设计问未来规划打算反问1 三面线下2 部门干什么的3 开和测的比例

点赞评论收藏

不愿透露姓名的神秘牛友

09-26 18:26

字节真的很会宠牛马们🥹

真的在吃方面一点没受委屈 除了没有中秋礼包、取消的下午茶……入职给了新人礼包还好健身房还在让我可以去消耗一下卡路里 不然我会肥s在字节吧就是希望强度可以下一点，不要10105了，好歹1095也行呀！

投递字节跳动等公司10个岗位

点赞评论收藏

不愿透露姓名的神秘牛友

08-08 18:20

就业群里有人作弊发群里了

牛友们有人知道这个公司的标是什么吗。本来不想多此一举，但是看了一下他拍的题，刷过两道力扣都不至于不会

职场水母：这题思路是什么，我目前想的一个暴力方法就是先把这个链表遍历一遍，用哈希表存储出现次数，然后再根据哈希表来一个一个删除节点，

点赞评论收藏

09-04 22:25

门头沟学院嵌入式工程师

双非本嵌入式简历求拷打，双非秋招还有机会吗，投了50+，二成初筛挂，八成没信😭

机智的大学生这就开摆：有些地方描述有点儿空泛。传感器直接说清是哪款，要不然对方都不知道问啥。然后freertos那里的描述也是，加上freertos就实现了实时性吗？可以说基于freertos的调度，结合xxx优化/xxx技术实现了xxx检测的实时性。同时freertos也能实现异步io，也能实现灵活的并行架构和高并发。检测时效性的问题要考虑哪里需要时效性，摔倒检测需要通过中断实现，至于温度这种大惯量就不需要，方案细节理清楚。然后freertos那里提升响应速度用的消息队列不是太合适，可以说是用的notify反正和消息队列差不多，或者说指针传参来优化消息队列的值传递进而提升线程间通信效率。但凡是搞过开发的看一眼你的简历就知道有问题了，需要重新整理技术路线优化一下。首先搞清楚技术路线，描述好软硬框架，体现性能优化/低功耗等。例如后续针对xxx功能进行了xxx的优化，实现了xxx成果（这里可以展开描述你使用的工具链，你是用的串口调试助手还是RTT来打印日志，有没有用systemview来优化任务的优先级大小避免乱序调度，或者使用了Ozone调试定位问题等）。描述问题上例如视觉项目那里，基于xxx通信接口编写xxx传感器的驱动，实现了xxx功能，并提供了xxx数据处理/稳定性/精确度/异步调用。或者也可以统一描述为基于xxx、xxx、xxx通讯协议编写xxx、xxx、xxx传感器的驱动。后续再单独给这些传感器的数据处理/优化等进行描述。最重要的一点，实习栏太少了，五六个月不至于只干了这么点，把实习项目描述清楚，把自己会的不管有没有让你做都写进去。你写了实习这栏，内容就不能比剩下的两个项目差多少了。最后就是看看岗位jd，跟着描述修改你的专业技能以及项目的描述，这样被回复的概率才大。希望你早日找到理想工作！祝好