首页 / Transformer

#

Transformer

#

2341次浏览 4人互动

此刻你想和大家分享什么

热门最新

03-05 17:52

上海交通大学算法工程师

面试讲清MHA/MQA/GQA的最短路径

刚把 MHA / MQA / GQA 这块重新手撕了一遍，发现面试最容易讲乱的点其实就两个：1）三者后半段计算几乎一样（score→softmax→加权和），真正不同只在 QKV 的生成维度和 K/V 的共享方式。2）推理成本核心看 KV cache：MHA 最大，MQA 最小，GQA 是折中。我自己用一句话区分：- MHA：每个头都有自己的 K/V，表达强但贵；- MQA：所有头共享一组 K/V，最快最省；- GQA：按组共享 K/V，性能和成本更平衡。如果被追问工程落地，我会补一句：“线上一般优先 GQA，不会一刀切 MQA；要结合延迟目标和精度回归来定组数。”

点赞评论收藏

分享

03-05 17:49

上海交通大学算法工程师

BERT面试高频知识点：3分钟速记

别再死记硬背 BERT 了，面试官更想听你讲明白它为什么有效。我整理一版 BERT 高频答法，3分钟速记：1）BERT 是什么？BERT = Bidirectional Encoder Representations from Transformers，本质是多层 Transformer Encoder 堆叠的预训练语言模型。2）为什么它当年这么强？核心是双向上下文建模。- GPT（早期）主要是单向语言建模- BERT 能同时看左右上下文，更适合理解类任务（分类、匹配、抽取）3）输入怎么构成？输入向量 = Token Embedding + Segment Embedding + Position Embedding- [CLS]：句级表示，常用于分类- [SEP]：句子分隔4）两个预训练任务（面试必问）- MLM（Masked Language Model）：随机 mask 15% token 预测原词- 80% -> [MASK]- 10% -> 随机词- 10% -> 保持原词- NSP（Next Sentence Prediction）：判断句子B是否是句子A的下一句5）怎么落地到下游任务？预训练后加任务头微调：文本分类、NER、问答等。面试30秒答法：BERT 的关键是双向建模；输入由 token/segment/position 三部分组成；预训练靠 MLM+NSP；下游通过微调完成具体任务。想看的话，我下一条发《BERT vs GPT 面试一分钟对比版》。

点赞评论收藏

分享

2023-06-06 14:29

阿里巴巴_算法工程师

深度学习进阶篇-预训练模型[1]：Transformer模型

深度学习进阶篇-预训练模型[1]：预训练分词Subword、ELMo、Transformer模型原理;结构;技巧以及应用详解 从字面上看，预训练模型（pre-training model）是先通过一批语料进行训练模型，然后在这个初步训练好的模型基础上，再继续训练或者另作他用。这样的理解基本上是对的，预训练模型的训练和使用分别对应两个阶段：预训练阶段（pre-training）和 微调（fune-tuning）阶段。 预训练阶段一般会在超大规模的语料上，采用无监督（unsupervised）或者弱监督（weak-supervised）的方式训练模型，期望模型能够获得语言相关的知识，比如句法，语法...

深度学习入门到进阶

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务