昨天 10:21 中国科学院大学数据架构师发布于浙江

关注

大模型修炼手册！GQA/SFT/RLHF 如何让 AI 秒变全能小能手？

咱们今天聊点大模型训练里的“工具箱”——分组查询注意力（GQA）、自回归语言模型（AR-LM）、监督微调（SFT）、基于人类反馈的强化学习（RLHF）。这些技术就像“造大模型”的“工具包”，各有各的用场，是当今大模型时代的基石。

一、分组查询注意力（GQA）：大模型的“作业分组小能手”

你有没有试过，全班50个人一起做数学题，每个人都要和另外49个人对答案？这叫“全连接注意力”（传统Transformer的注意力机制），计算量爆炸（O(n²)）！

GQA（Grouped Query Attention，分组查询注意力）就像老师说：“你们分成5组，每组10人，组内互相核对答案，组间不用管！”——把查询（Query）分成小组，每组共享键（Key）和值（Value）的计算，计算量直接降到O(n√n)（比如n=50，原来要50×50=2500次计算，现在5组×10×10=500次）。

例子：

假设模型要生成一句话，需要计算每个新词和前面所有词的“关联度”（注意力）。传统方法像“全班互查作业”（50人×50人），GQA像“分组互查”（5组×10人×10人）——既保证了关联度计算，又省了80%的计算量！

二、基于Transformer的自回归语言模型（AR-LM）：大模型的“写作文小能手”

自回归语言模型（Autoregressive LM）的核心是“根据前面的内容，猜下一个词”，像极了咱们写作文时“每写一句都要回顾前文”的习惯。

Transformer的自注意力机制（Self-Attention）是它的“秘密武器”——能让模型在生成第n个词时，同时“看”到前面所有词的信息（比如“前n-1个词”），甚至跨句子的关联（比如“第一段的主角”和“第三段的情节”）。

例子：

用GPT生成故事：“从前有一只猫，它……”模型生成“它”后面的词时，会“回忆”前面提到的“猫”，然后结合“从前”的时间背景，可能生成“它住在一个小房子里”。这就是自回归——每一步都依赖前面的“历史记忆”。

三、监督微调（SFT）：大模型的“专项训练小灶”

预训练大模型（比如GPT-3）像“全能学霸”，但想让它“擅长某件事”（比如当客服、写代码），需要“开小灶”——这就是监督微调（Supervised Fine-Tuning，SFT）。

核心操作：用大量“标注好的任务数据”（比如“用户问题+正确回答”的客服对话对）重新训练模型，调整它的参数，让它更“懂”特定任务。

例子：

原始模型会生成“今天天气不错”，但你想让它当“美食客服”，就用数据“用户：推荐一家火锅店；回答：推荐XX火锅，辣度适中……”来微调。模型学完后，再问“推荐火锅店”，它就会输出更相关的答案！

四、基于人类反馈的强化学习（RLHF）：大模型的“人类老师带飞”

监督微调（SFT）是用“标准答案”教模型，但有些任务（比如“讲笑话”“写创意文案”）没有明确的“对错”，这时候需要人类当“评委”——这就是RLHF（Reinforcement Learning from Human Feedback）。

核心流程：

模型生成内容（比如一个笑话）；
人类评估（“好笑吗？”“有没有冒犯性？”）；
模型根据反馈调整（“好笑就多学这个风格，冒犯就改”）。

例子：

你想让模型生成“职场冷笑话”，第一次生成“老板说‘今天不加班’，员工说‘那我回家加班’”——人类觉得“不够冷”。模型调整后，第二次生成“老板说‘今天提前下班’，员工说‘那我提前到公司加班’”——人类觉得“有进步”，模型继续优化……

五、它们之间的关系：大模型的“成长流水线”

这四个技术就像大模型的“成长四步曲”：

Transformer+GQA：先搭好“高效计算的大脑”（Transformer架构），再用GQA优化计算量（不然大模型根本训不动）。
预训练：用海量无标注数据（比如书籍、网页）让模型“学说话”（自回归生成）。
SFT：用“专项数据”（比如客服对话）给模型“开小灶”，让它“擅长某件事”。
RLHF：用人类反馈“精细调整”，让模型“更懂人类喜好”（比如幽默、礼貌）。

总结：大模型的“工具包”有多强？

GQA让大模型“算得动”（解决内存和计算瓶颈）；
Transformer+自回归让大模型“会说话”（捕捉长距离依赖）；
SFT让大模型“有专长”（比如客服、翻译）；
RLHF让大模型“更懂你”（符合人类价值观）。

全部评论

推荐最新楼层

06-06 13:55

已编辑

北京邮电大学 Java

java后端开发暑期实习offer求助！！

投票

上篇offer帮选大家都推荐去蚂蚁包装，最近又新来了两个可选项请大家再帮忙看看呀！本人26届硕士，找暑期找的比较晚，目前offer三选一，请路过各位佬投个票给点建议！！①字节：剪映-用户增长优点：部门还可以，业务也比较核心缺点：转go，之前没有学习过，主要base在上海，北京实习沟通不方便②腾讯：csig-腾讯云，营销云组优点：都说有鹅选鹅来着！！鹅的转正是不是也多一些缺点：不转语言，landing应该比较顺利，据说这个事业群主要ToB比较坑？不太懂有无大佬指点③蚂蚁：数据智能平台与服务部优点：转正率高，听说wlb很舒服，大模型相关跟风口，虽然百灵似乎没咋听过缺点：用python做百灵大模型预训练的数据清洗，感觉像dirtywork比较水？与我目前求职需求不太匹配，有佬建议学文档包装简历秋招用，不知是否可行，万一不能转正怕秋招连后端开发的赛道也回不去了不过今年大模型确实很火，每次面试都会被问本人目前对于秋招去国企或互联网都可以接受，如果暑期顺利转正也是一个不错的选择，请各位给给建议应该怎么选择呀         

投递蚂蚁集团等公司9个岗位 offer帮选 Java求职圈

点赞评论收藏

分享

06-05 16:16

郑州大学算法工程师

提醒一下大模型面试进度为0的人，反正就这80页纸，熬夜背完就稳了！

点赞评论收藏

分享

06-06 22:38

美团_运筹优化算法实习生(实习员工)

【暑期实习】美团运筹优化算法面经

四月中旬才开始投递，总算是抓住了暑期的尾巴time line如下：4.15投递5.6一面5.7二面5.8三面512收到offer（一周速通三面，感觉可以挑战全网最快流程[doge]）一面（技术面）：约80分钟1. 自我介绍2. 详细盘问了科研论文的项目（深度强化学习方向），问的非常详细，包括论文的主要创新点、具体的建模细节等，非常刨根问底，几乎每个设计都要问一下为什么，其中也交叉问了一些八股，主要是强化学习方面的，如loss如何计算与传递等。常规问题以外，面试官还进行了一些拓展，比如让我思考这个科研项目距离落地还需要做哪些工作，多目标的奖励权重如何更新等，这部分我答的不好，但是面试官也非常耐心，一步步引导我去进行思考，也和我交流了他们实际业务中应用强化学习的一些设计。3. 然后又盘问了在滴滴做的项目，这个主要是大致介绍了业务的背景、项目的目标、模型选型的考虑等。其中具体问了一些推荐系统模型的八股（因为简历里有写），如w＆d、deepfm、d＆c network等的模型特点。4. 面试官介绍了下组里的一些业务，以及如果我能进来的话可以做的一些方向，涵盖的内容非常广，从传统运筹的路径规划到强化学习再到营销用增方向。由于项目和业务上聊了很多，导致没时间手撕，面试官就让我自己截图回去做，做完微信发给他即可。手撕的题是一道力扣mid，最佳股票策略。二面（技术面）：约40分钟一面结束后立刻发来了二面通知，第二天上午十一点有趣的是，大概当天十点半的时候，二面还没开始，三面的链接就已经发来了1. 自我介绍2. 滴滴实习项目盘问，问的也很细，跟一面的问题有一些重叠，还问了业务中如果遇到没出现的特征应该怎么处理等数据预处理的问题3. 科研论文盘问，dtw距离是什么，如何计算？k中心聚类的步骤，都是一些常见的八股4. 手撕：力扣mid 编辑距离，发现美团很喜欢出动规题5. 业务介绍，一面时介绍的已经比较仔细了，也没什么需要反问的三面（hr面）：约20分钟都是一些开放性的问题，开始侃侃而谈1. 经过前两轮面试，对业务有什么了解？2. 平常有没有用过业务相关的产品？体验怎么样？有哪些痛点？3. 如何利用ai来辅助进行业务升级？举几个具体的场景4. 简历中最能体现自己能力的项目是哪个？具体展开说明5. 过去的几段实习经历里，给自己带来最大改变的是什么？带来了哪些改变？6. 反问    

投递美团等公司9个岗位

点赞评论收藏

分享

05-27 17:49

深圳大学运营

事业编体检查不查地中海贫血？

各位正在备考事业编的小伙伴们，今天咱们来聊聊体检环节中大家最关心的问题之一——地中海贫血到底查不查？别急，我给大家划重点！首先明确告诉大家，普通岗位的事业编体检一般不会专门筛查地中海贫血。根据《公务员录用体检通用标准（试行）》，血液系统疾病确实在检查范围内，但日常体检流程通常只做血常规，主要看血红蛋白、红细胞计数这些基础指标。如果血常规结果正常，基本不会触发地贫专项检查。不过要注意两种特殊情况：第一，岗位性质。像医疗岗、公安岗等特殊职位，或者招聘公告里明确标注"参照公务员标准+地贫筛查"的单位，可能会加查血红蛋白电泳或基因检测。第二，地区差异。广东、广西等南方地贫高发区，部...

公务员体检标准介绍

点赞评论收藏

分享

05-17 17:34

门头沟学院 UE4

想问下网易雷火精英实习流程是怎样的

一面是交叉面，二面是否也是交叉面呢，如果是的话这样算下来面试也太多了吧…有没有面过的佬

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

腾讯暑期补捞中

热聊中

TP-LINK开奖

热聊中

创作者周榜

更多

正在热议

更多

# 我的实习收获 #

32975次浏览 515人参与

# 安利/避雷我的专业 #

73533次浏览 515人参与

# 实习吐槽大会 #

35795次浏览 164人参与

# 2025牛客秋招季 #

5437次浏览 168人参与

# 晒一晒你的工位 #

86535次浏览 307人参与

# 移动求职进展汇总 #

1629次浏览 17人参与

# 第一份工作应该选高薪还是热爱？ #

61686次浏览 561人参与

# 我的租房踩坑经历 #

31181次浏览 314人参与

# 求职遇到的搞笑事件 #

113308次浏览 770人参与

# 我的国央企投递进展 #

43097次浏览 268人参与

# 26届秋招投递记录 #

4453次浏览 118人参与

# 穿越回高考你还会选现在的专业吗 #

23216次浏览 272人参与

# 地方国企笔面经互助 #

29980次浏览 98人参与

# 双非能在秋招上岸吗？ #

215360次浏览 1150人参与

# 你后悔选择现在的专业吗 #

81806次浏览 671人参与

# 招银网络求职进展汇总 #

113285次浏览 741人参与

# 你觉得专业和学校哪个对薪资影响最大 #

57979次浏览 472人参与

# 毕业旅行去哪玩儿 #

1366次浏览 33人参与

# 如果有时光机，你最想去到哪个年纪？ #

47276次浏览 800人参与

# 非技术岗简历怎么写 #

209906次浏览 2861人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务