首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
首页 /
Transformer
#
Transformer
#
2341次浏览
4人互动
收藏话题
分享
此刻你想和大家分享什么
热门
最新
03-05 17:52
上海交通大学 算法工程师
面试讲清MHA/MQA/GQA的最短路径
刚把 MHA / MQA / GQA 这块重新手撕了一遍,发现面试最容易讲乱的点其实就两个:1)三者后半段计算几乎一样(score→softmax→加权和),真正不同只在 QKV 的生成维度和 K/V 的共享方式。2)推理成本核心看 KV cache:MHA 最大,MQA 最小,GQA 是折中。我自己用一句话区分:- MHA:每个头都有自己的 K/V,表达强但贵;- MQA:所有头共享一组 K/V,最快最省;- GQA:按组共享 K/V,性能和成本更平衡。如果被追问工程落地,我会补一句:“线上一般优先 GQA,不会一刀切 MQA;要结合延迟目标和精度回归来定组数。”
点赞
评论
收藏
分享
03-05 17:49
上海交通大学 算法工程师
BERT面试高频知识点:3分钟速记
别再死记硬背 BERT 了,面试官更想听你讲明白它为什么有效。我整理一版 BERT 高频答法,3分钟速记:1)BERT 是什么?BERT = Bidirectional Encoder Representations from Transformers,本质是多层 Transformer Encoder 堆叠的预训练语言模型。2)为什么它当年这么强?核心是双向上下文建模。- GPT(早期)主要是单向语言建模- BERT 能同时看左右上下文,更适合理解类任务(分类、匹配、抽取)3)输入怎么构成?输入向量 = Token Embedding + Segment Embedding + Position Embedding- [CLS]:句级表示,常用于分类- [SEP]:句子分隔4)两个预训练任务(面试必问)- MLM(Masked Language Model):随机 mask 15% token 预测原词- 80% -> [MASK]- 10% -> 随机词- 10% -> 保持原词- NSP(Next Sentence Prediction):判断句子B是否是句子A的下一句5)怎么落地到下游任务?预训练后加任务头微调:文本分类、NER、问答等。面试30秒答法:BERT 的关键是双向建模;输入由 token/segment/position 三部分组成;预训练靠 MLM+NSP;下游通过微调完成具体任务。想看的话,我下一条发《BERT vs GPT 面试一分钟对比版》。
点赞
评论
收藏
分享
2023-06-06 14:29
阿里巴巴_算法工程师
深度学习进阶篇-预训练模型[1]:Transformer模型
深度学习进阶篇-预训练模型[1]:预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解 从字面上看,预训练模型(pre-training model)是先通过一批语料进行训练模型,然后在这个初步训练好的模型基础上,再继续训练或者另作他用。这样的理解基本上是对的,预训练模型的训练和使用分别对应两个阶段:预训练阶段(pre-training)和 微调(fune-tuning)阶段。 预训练阶段一般会在超大规模的语料上,采用无监督(unsupervised)或者弱监督(weak-supervised)的方式训练模型,期望模型能够获得语言相关的知识,比如句法,语法...
深度学习入门到进阶
点赞
评论
收藏
分享
玩命加载中
创作者周榜
更多
热议话题
更多
1
...
交出你的校招焚诀
0
2
...
27届求职交流
0
1
...
神州信息求职进展汇总
3
...
实习生至暗时刻
0
4
...
26届求职交流
0
5
...
面试___岗的必刷题单
0
6
...
实习想申请秋招offer,能不能argue薪资
0
7
...
米哈游求职进展汇总
0
8
...
字节开奖
0
9
...
哪些公司开暑期实习了?
0
10
...
你经历过哪些AI幻觉?
0
牛客网
牛客网在线编程
牛客网题解
牛客企业服务