首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
首页 /
transformer
#
transformer
#
7232次浏览
96人互动
收藏话题
分享
此刻你想和大家分享什么
热门
最新
2023-08-06 00:28
已编辑
香港大学 推荐算法
深度学习面经 - Attention、Transformer
一、简介Attention机制是一种用于加强神经网络在处理序列数据中关注重要部分的机制。在处理长序列时,RNN可能难以捕捉到序列中不同部分的重要程度,导致信息传递不够高效。而Attention机制允许网络根据当前输入和其他位置的信息,动态地调整各个位置的权重,使得模型可以有选择地关注不同部分的输入。Transformer是一种基于Attention机制的神经网络架构,由著名且经典的"Attention is All You Need"一文提出,广泛应用于自然语言处理和其他序列建模任务。与传统的RNN和CNN结构不同,Transformer完全基于Attention机制来处理...
查看20道真题和解析
小白机器学习面试指南
点赞
评论
收藏
分享
2023-07-17 22:29
阿里巴巴_算法工程师
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型
大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍 1.大语言模型的预训练 1.LLM预训练的基本概念 预训练属于迁移学习的范畴。现有的神经网络在进行训练时,一般基于反向传播(Back Propagation,BP)算法,先对网络中的参数进行随机初始化,再利用随机梯度下降(Stochastic Gradient Descent,SGD)等优化算法不断优化模型参数。而预训练的思想是,模型参数不再是随机初始化的,而是通过一些任务进行预先训练,得到一套模型参数,然后用这套参数对模型进行初始化,再进行训练。 预训练将大量低成本收集的训练...
AI前沿技术
点赞
评论
收藏
分享
2023-06-06 14:31
阿里巴巴_算法工程师
深度学习进阶篇[3]:XLNet、BERT、GPT,ELMO
深度学习进阶篇-预训练模型[3]:XLNet、BERT、GPT,ELMO的区别优缺点,模型框架、一些Trick、Transformer Encoder等原理详解 1.XLNet:Generalized Autoregressive Pretraining for Language Understanding 1.1. 从AR和AE模型到XLNet模型 自回归模型(Autoregressive Model, AR),通过估计一串文本序列的生成概率分布进行建模。一般而言,AR模型通过要么从前到后计算文本序列概率,要么从后向前计算文本序列概率,但不论哪种方式的建模,都是单向的。即在预测一个单词的时候...
深度学习入门到进阶
点赞
评论
收藏
分享
05-14 16:26
华北电力大学(北京) Java
突然发现Transformer拆解思路真的好清晰
🌈 Transformer模型核心解析 Transformer以自注意力机制为核心,打破传统序列模型依赖循环结构的局限,通过并行计算在输入序列各位置间建立关联,成为自然语言处理领域的“顶流”架构!模型由编码器和解码器构成,通过多层注意力机制实现信息交互与特征提取,精准捕捉文本语义。 💡 不可忽视的优势 1️⃣ 并行计算王者:支持高效并行运算,轻松应对大规模数据与分布式训练场景,大幅提升训练效率 2️⃣ 迁移学习利器:预训练+微调模式适配多任务,从机器翻译到情感分析,一键切换超灵活 3️⃣ 长距离依赖杀手:自注意力机制无视序列长度,轻松捕捉跨段落语义关联,告别“健忘症” ⚠️ 使用需注意的短...
点赞
评论
收藏
分享
提到的真题
返回内容
玩命加载中
创作者周榜
更多
热议话题
更多
1
...
写给毕业5年后的自己
0
2
...
上班苦还是上学苦呢?
0
1
...
华泰证券Fintech星战营
3
...
职场捅娄子大赛
0
4
...
市场营销人求职交流聚集地
0
5
...
华为求职进展汇总
0
6
...
如何缓解求职过程中的焦虑?
0
7
...
如果今天是你的last day,你会怎么度过?
0
8
...
好好告别我的学生时代
0
9
...
薪资爆料
0
10
...
运营商笔面经互助
0
牛客网
牛客企业服务