嵌入式ai/模型部署学习规划疑问

想入门模型部署,问了一下Gemini,他的回答如下,大佬们看看这#秋招白月光##模型部署##嵌入式#路径可行吗???

第 1-2 个月:打地基(Modern C++ & CMake & Linux)
目标:能看懂推理引擎源码,能独立构建多文件 C++ 项目。

核心内容:

Modern C++:跟着 HKL 视频,重点吃透 智能指针 (RAII)、移动语义 (Move)、Lambda 表达式和简单的模板。

CMake:掌握如何链接第三方库(OpenCV, CUDA, TensorRT),学会编写 find_package。

CSAPP:重点精读 第 6 章(存储层次)。理解什么是 Cache Latency。

里程碑:

在 Linux/WSL 下用 CMake 构建一个调用 OpenCV 处理视频流的小项目。

手动实现一个包含智能指针管理的简易内存池。

📅 第 3 个月:拿手术刀(CUDA 编程入门)
目标:理解 GPU 并行逻辑,能手写并优化基础算子。

核心内容:

核心概念:Thread, Block, Grid, Shared Memory, Warp Shuffle。

实战任务:手写一个 矩阵乘法 (GEMM)。

版本 1:朴素版(跑通)。

版本 2:使用 Shared Memory 优化(速度提升 5-10 倍)。

性能分析:学会使用 nsight-systems 查看 Kernel 执行时间。

里程碑:

手写一个自定义的图像预处理 Kernel(比如把 BGR 转成 RGB 并归一化)。

📅 第 4 个月:炼金术(模型转换与 TensorRT)
目标:把 PyTorch 模型变成 1660 Ti 上的极致推理引擎。

核心内容:

ONNX:学习如何导出 ONNX,如何用 onnx-simplifier 简化模型。

TensorRT:掌握 trtexec 工具,学习编写 TensorRT 的 C++ API 推理代码(创建 Runtime、Engine、Context)。

插件编写:尝试为一个 TensorRT 不支持的算子写一个 CUDA Plugin。

里程碑:

将 YOLOv8 导出为 TensorRT 引擎,并在 1660 Ti 上跑到极致 FPS。

📅 第 5 个月:工业化(量化与性能压榨)
目标:攻克部署最难的一环——精度与速度的平衡。

核心内容:

量化原理:学习对称量化 vs 非对称量化,理解 KL 散度。

PTQ 实战:使用 TensorRT 的 Int8EntropyCalibrator 进行训练后量化。

多线程部署:学习 C++ std::thread 或生产消费者模型,实现“视频读取-模型推理-结果渲染”的异步并行流水线。

里程碑:

完成一个低延迟、多线程的实时检测系统,对比 FP16 和 INT8 的精度损失与速度提升。

📅 第 6 个月:破圈与冲刺(国产迁移 & 算法 & 面试)
目标:将能力迁移,准备实习面试。

核心内容:

国产迁移:如果有条件,借或买一个 RK3588 开发板,学习 RKNN-Toolkit。你会发现,因为你有了前 5 个月的底子,这部分 2 周就能上手。

算法刷题:每天 1-2 道 LeetCode,重点是数组、链表、排序。

八股文复习:回顾 C++ 内存模型、操作系统基础。

里程碑:

整理简历,把“手写 CUDA Kernel 优化”、“TensorRT INT8 量化实战”作为核心项目写上去。
全部评论
这也太多了吧
点赞 回复 分享
发布于 03-13 11:46 上海

相关推荐

03-23 20:09
已编辑
百度_高级研发工程师
刚面完一把大厂的 AI 核心业务线,遇到个懂行的总监,一直在大模型微调这块给我挖坑,估计想看我是不是那种只会调第三方 API 的“外包型开发”。顺手把面试过程复盘一下,供后端转 AI 方向的兄弟们参考。一、 避坑:千万别在简历上乱吹“全量微调”很多后端兄弟为了简历好看,上来就写自己主导了全量微调(Full Parameter Fine-tuning)。这在懂行的人听来挺扯的,全量微调极其烧钱,动辄几百张 A100 显卡,普通业务线哪来这个算力和预算去给你折腾。面试时我直接兜了底:结合咱们真实的业务场景,我只参与了指令微调(SFT)和参数优化。其实大厂现在勒紧裤腰带,最看重的就是“花小钱办大事”,精准踩中降本增效和 ROI 才是正解。二、 被追问的深水区:怎么防“灾难性遗忘”后来聊到把公司的私有业务数据喂给开源大模型时,总监顺理成章地问到了“灾难性遗忘”——模型学了公司的业务黑话,结果连基础的逻辑推理都不会了。应对这个,我切入了用正则化(Regularization)做权重约束的方案。作为 Java 开发,能把这俩概念用大白话解释清楚,面试官基本就认可你的算法底子了:L1 正则化 (Lasso): 核心在于惩罚项 \lambda \sum |w|。它的特性是会产生稀疏矩阵,能把大模型里很多不重要的特征权重直接清零。我结合了他们公司的端侧场景聊:在智能硬件上部署模型,内存和算力死贵。利用 L1 的稀疏性可以大幅压缩模型体积,在不怎么掉精度的情况下,保住端侧的推理速度。L2 正则化 (Ridge): 核心是 \lambda \sum w^2。它不会把权重变 0,而是让其变得平滑。大模型的底座参数是跑了万亿 Token 炼出来的完美状态,加新知识时,L2 就像个限流器,防止底座权重发生剧烈漂移。这样既吸收了业务知识,又不会过度拟合。三、 找准后端的生态位:不抢算法的活最后面试官试探性地问:“既然算法原理这么熟,那这微调的训练代码是你用 Python 写的吗?”这绝对是个坑。做后端的一定要守住自己的边界,不能瞎揽活,我当时直接拉回 Java 主场:“炼丹跑 PyTorch 脚本主要是算法团队在搞。作为后端,我在微调链路里的核心价值是做‘数据工程化’。大家都知道 Garbage in, Garbage out,微调的上限全看数据质量。我主要用 Java 跑高并发的 ETL 任务,从 MySQL/ES 里把真实的业务日志抽出来,洗掉敏感词和废话,组装成严格的 {"instruction": "...", "input": "...", "output": "..."} 格式。没有后端的这条数据流水线,算法团队连干净的‘饲料’都拿不到。”总结:后端面 AI 岗位,最吃香的画像其实是:懂点算法底层逻辑(知道显存怎么省、遗忘率怎么控),但核心精力全扎在工程落地(清洗海量数据、保障系统并发)上的务实派。希望对大家有帮助。
查看3道真题和解析
点赞 评论 收藏
分享
03-29 15:47
已编辑
郑州大学 Java
面试机会还是那么少,不过也几个推进到了终面,不知道结果如何。星期一某量化(50-100亿)一面1 :上来先一个hot100 的hard2:拷打百度实习3:拷打物联网研究院实习无八股,整体体验非常好,已过星期二拼多多 二面1:询问是否投错岗位2:介绍冯诺依曼体系3:用户态内核态4:进程线程区别5:   进程通信方式6:多线程竞争共享资源怎么办7:http从服务器发送到主机全流程8:socket流程9:IO多路复用10: hashmap的结构11:MySQL索引数据结构12:为什么用B+树13:courrenthashmap原理14:Java对象的生命周期15:有哪些垃圾回收器16:100万个数,内存不足的排序方法算法:两个非hot100的easy整体感觉非常简单,问的比较常规,算法也比较简单,已过星期四某量化(50-100亿)二面1:拷打物联网研究院实习2:最有成就感的事3:实习学到了什么4:拷打百度实习5:短期记忆长期记忆6:什么是记忆涌现面试官有点冷漠哈哈,不知道结果如何蚂蚁一面1:模型微调数据源哪来2:如何部署满血ds3:有没有写过算子优化推理4:整体微调流程5:集群通信如何处理6:如何将模型量化到端侧7:拷打百度实习8:nl2sql的各种场景题9:提示词是什么样比较好10:多agent上下文如何处理11:什么是static12:什么是final13:什么是arraylist和linkedlist14:什么是hashmap15:currenthashmap16:线程池参数17:场景题设计线程池18:1200万数找中位数无手撕,面的很爽,面试官语气很好,我说出解决方案也非常有反馈,问题也不难,希望可以通过星期五拼多多 三面1:拷打百度实习无手撕,聊的比较好,希望可以过更新,星期天接到hr面邀约,星期一hr面总结面试机会太难得了,这周只有三家给了机会面试,其他的好多简历挂了,找实习真的是看运气呀😭😭,感觉有面试是最难的
27届实习投递记录
点赞 评论 收藏
分享
评论
点赞
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务