2025-12-05 20:53 门头沟学院人工智能发布于山东

关注

大模型部署和部署优化全流程，都看过来。

首先讲为什么写这篇啊，因为现在基本上都是开源模型的，然后大量的公司需要自己的数据和样本，

所以非研究院这种，基本上都是开源模型二开，所以说基本上都是调试出自己的模型，部署在自己的显卡上。

那么这里就有专门的一个岗位，大伙可以去搜，叫模型部署的岗位，不过只有大公司才会有，一般的话，都是顺手全干完的。

比如我hhh，我一个人能顶人家几个，有时候能力越大，干活越多，而不想干活，就要装糖，然后能力越小，

所以说能力越大，能力越小。

ok，正式开始啊，上面讲了为什么要部署自己的模型，

这里我默认，你知道有ollma这个种东西，也默认你已经下载好了模型，有自己的显卡。

比如说你下载了个各方面都很好的，自我感觉良好的模型，现在要看他能不能用了，一般来说就是，模型的数值验证。

这里汇总了机器学习中常见的评估指标分类：

二元分类

Accuracy（准确率）：正确预测的比例

Precision（精确率/查准率）：预测为正的样本中实际为正的比例

Recall（召回率/查全率）：实际为正的样本中被正确预测的比例

F1 Score：Precision和Recall的调和平均

AUC-ROC：ROC曲线下面积，衡量分类器整体性能

AUC-PR：精确率-召回率曲线下面积（适用于不平衡数据）

检测任务（计算机视觉）

mAP（Mean Average Precision）：多个类别AP的平均值

IoU（Intersection over Union）：预测框与真实框的交并比

AP（Average Precision）：单个类别的平均精确率

P-R Curve：精确率-召回率曲线

NLP任务

机器翻译/文本生成

BLEU：基于n-gram精确率的加权几何平均

ROUGE：基于召回率的评估（ROUGE-N, ROUGE-L等）

METEOR：考虑同义词和词干的标准化评分

CIDEr：专门为图像描述设计的指标

语言模型

Perplexity（困惑度）：衡量语言模型预测能力的指标，越低越好

这些随便记一下就行，实际上最后训练完，都要看这些指标，这些个我讲过很多次了，但是训练完之后，一直没讲。

我现在跟你们讲清楚，这个时候一般是模型的格式转化。

模型格式转换：目的：将训练框架模型转为通用或推理专用格式

比如：

PyTorch->TorchScript / ONNX

TensorFlow->SavedModel / TF Lite / ONNX

Keras->HDF5 / SavedModel

常规而言只有这几种格式，你下来都拿去玩玩，我敢说我的教程基本上没有废话，我个人自身就不听废话，所以只写最简单好懂的

你只需要面试讲得出onnx，HDF5基本上就有了，

然后讲下为什么必须要转化啊：

这个问题我在5月份也提过，没想到大模型现在依旧火爆，因为剩内存和速度，pytorch这种是训练框架，

远不如onnx这种生产引擎消耗少，其次无法发挥出卡的性能，

假设正常有前置对应知识的工程师，他会这么做:导出 → 量化/优化 → 用专用推理引擎部署

通用的话是PyTorch/TensorFlow → ONNX → TensorRT/OpenVINO/ONNX Runtime（这个玩意是加速器，是用来跑onnx文件的，基本上加完速快3倍很正常，调试的好会来到5-8倍，但是我没调出来过-哭泣-）。

然后一般转化完事了优化一下，量化，剪枝，蒸馏。

在下面就是选择推理邀请和部署方式的选择了：

常规的有tensorRT，ONNX Runtime，DeepSpeed-Inference，正常你用onnx这个就行。

这个部署方式内容其实很多，我稍微讲讲，下期就讲这个：

REST API HTTP 接口，最常用,现在主流的是Flask/FastAPI + Gunicorn

还有就是边缘部署可以在设备端直接运行比如TFLite, OpenVINO, NCNN

是不是感觉要长脑子了？还没完呢。

再往后就是封装，监控，日志，CI/CD那一套了。

这些是测开的领域了，我不擅长，我也不讲hhh。

哎呀又写了1600字了，硬件的东西，不同场合的东西我下期再讲了。

#聊聊我眼中的AI#

大模型集合文章被收录于专栏

这里全放大模型的，需要自取，后面可能没什么空搞这些了。

全部评论

推荐最新楼层

01-16 14:12

清华大学 Java

世界就是个巨大的草台班子

离职之后才发现，世界真的就是个巨大的草台班子。原本我一个人负责的项目，我走了之后被拆分给好几个人一起做，结果还是干不明白。不是事情有多难，而是没人愿意真正把细节弄清楚。需求一知半解，代码没人整体把控，出了问题就来回甩锅，效率反而更低。以前总觉得很多流程很“正规”，现在才发现，很多事情能跑起来，靠的只是有人在兜底。一旦兜底的人走了，系统立刻开始摇摇欲坠。所以有时候真不是个人多就行，草台班子里，真正靠谱的永远是那几个把事当事的人。

李橙子：事实上就是这样，老的代码就像一座破旧的汽车，有些小故障就简单修修，一旦大整改，那就彻底凉了

你都见过什么样的草台班子...

点赞评论收藏

01-18 16:26

上海交通大学算法工程师

智力题必考：100个苹果，一次只能拿1~5个，怎么保证赢？

面试题简述有100个苹果，两个人轮流拿，每次只能拿1到5个，谁能拿到最后一个谁赢，你先手，怎么保证你一定能赢？面试官想听的1、能不能抽象问题2、能不能找到规律3、能不能把思考过程说清楚需要说明的是，这类智力题最重要的是推理能力，而不是答案。面试回答举例我会先从小规模的情况开始分析规律，而不是直接看100个数。假设只剩下1个到5个苹果，先手一定赢。详情请参考：http://xhslink.com/o/444QKKxYUTp由浅入深分析1、这是一个博弈论中的必胜态或必败态问题2、核心是控制节奏，而不是算的快3、类似问题在算法中常见，比如 Nim 博弈4、重点不在公式，而在归纳和反推面试加分点1、提...

查看1道真题和解析

点赞评论收藏

01-19 12:48

门头沟学院 C++

这世界已经开始发癫了，

这是在向下兼容了吗，本以为牛客那些，30k侮辱价已经很装了，现在小红薯那边，都本科开始逐渐接受12k了😅😅😅

码客明：怎么说呢，气是真的气，装也是真的装，别人35k他30k肯定气，但是有人5k，发出来也可以装一下。

点赞评论收藏

2025-12-03 00:01

北京理工大学珠海学院嵌入式软件工程师

抖音刷到一个大佬给我评论

把我笑死了😂，说得好像我3k去干了，还拉低他工资一样

万物DP：突破底线的事情少干吧

从顶到拉给所有面过的公司...

点赞评论收藏

01-14 19:30

字节跳动_剪映_前端(准入职员工)

前端面筋---莉莉丝二面(已offer)

莉莉丝二面(1.13 16.00 40min)自我介绍（简历里有的不用说）不能背自我介绍的板子了, 然后灵机一动说了自己三个优点和缺点举例说明一个主动优化开发体验的案例（如搭建组件库、编写自动化脚本）i18n国际化工具是面向to C端用户的吗？这个工具做完之后反馈如何？工具的受益者是谁？对外部用户有什么额外成本？有没有技术分享的经历？你们的leader有给你们什么指导吗？周围同事对你的评价如何？为什么leader会觉得你性价比高？你做了什么让他有这样的感知？平时有用AI辅助的经历吗？最近半年有关注到前端的什么趋势？你的专业学习对选择前端方向有什么帮助？有考研的计划吗？这个决策有跟谁聊过吗？如果...

查看24道真题和解析

点赞评论收藏

招聘动态

27届寒假/转正实习汇总

全站热榜

创作者周榜

正在热议

大模型部署和部署优化全流程，都看过来。

二元分类

检测任务（计算机视觉）

NLP任务

机器翻译/文本生成

语言模型

模型格式转换： 目的：将训练框架模型转为通用或推理专用格式

全站热榜

创作者周榜

模型格式转换：目的：将训练框架模型转为通用或推理专用格式