2023-04-07 12:58 牛客网_算法负责人

关注

Transformer模型是什么

#牛客解忧铺#

全部评论

推荐最新楼层

带#牛客在线求职答疑中心#提问都会召唤我

Transformer模型是一种基于自注意力机制（self-attention mechanism）的神经网络模型，由Google在2017年提出。它在自然语言处理领域中表现出色，尤其是在机器翻译任务中取得了很好的效果。相比于传统的循环神经网络（RNN）和卷积神经网络（CNN），Transformer模型可以并行计算，加速了训练过程，同时也避免了RNN中的梯度消失问题。Transformer模型的核心是自注意力机制，它可以在不同位置之间建立关联，从而更好地捕捉长距离依赖关系。Transformer模型的应用范围不仅限于自然语言处理，还可以应用于图像处理、语音识别等领域。

1 回复分享

发布于 2023-04-07 12:58 AI生成

04-07 13:13

已编辑

东北师范大学 Java

老婆问我：“什么是大模型的“Transformer”？”

最近，老婆在手机上刷到一条新闻：“Transformer 架构彻底改变 AI，成就了 ChatGPT 这样的超级大脑！”她皱着眉问我：“Transformer ？变形金刚？” 我乐了：Transformer 确实是“变形”高手，但不是擎天柱，而是 AI 领域的一场革命。简单来说，它是一种神奇的“文本理解法”，让 AI 能像人一样读懂、分析、生成语言。如果说传统 AI 是小学语文老师背课文，Transformer 就是博士生精读论文。她更疑惑了：“AI 读文本，不就是按顺序看过去，像人看书一样？为什么需要 Transformer？”这就涉及到一个关键问题：人类看文章，会前后关联，而老式 AI 只...

人工与智能聊聊我眼中的AI 牛客创作赏金赛

点赞评论收藏

分享

04-12 02:04

门头沟学院算法工程师

美团算法一面面经

📍面试公司：美团👜面试岗位：算法📖面试问题：主要分了两部分，简历里项目，论文，竞赛和手撕。项目是穿插着八股问的，下面是涉及到八股的一些问题1.如何缓解大模型的复读机问题和幻觉问题2.讲一下大模型的采样3.为什么做了sft还要做ppo4.讲一下qlora的好处5.讲一下ppo的四个模型6.sft数据的多样性怎么保证7.dpo和ppo相比的优势在哪里8.有没有考虑过rag，具体怎么实施的手撕是基础的单头注意力，写完之后问了怎么改多头，为什么要除以根号dk和单头改多头的参数量会不会变。反问问了一下业务和对于大模型定量计算的看法🙌面试体验：体验不错，没答上的地方也只是说下去看看。     

美团一面2111人在聊

查看10道真题和解析面试体验感最好的是哪家？

点赞评论收藏

分享

04-19 14:05

北京邮电大学 Java

PCG数据平台开发一面面经

1. 实习2. 线程和进程3. 什么是虚拟内存4. Java的值传递5. Java的HashMap和concurrentHashMap6. 合并k个升序链表吐槽一下：腾讯的面呗调试代码好麻烦，看不到错误提示，ListNode类还要自己写，输入自己手动拷贝编程题写完了没调试好，面后秒挂

查看6道真题和解析

点赞评论收藏

分享

04-17 11:38

已编辑

百度_测试开发工程师（实习）(实习员工)

字节暑期开发一面面经

部门Java商业化，一面被面试官像踩肉虫一样踩死，期望不要脏面评。不愧是字节，问的问题难度很高，刁钻且抽象，而且大部分都是场景题，可以说是个人整个暑期最难的一次面试。1.讲讲UDP TCP的区别2.问问Java吧，讲讲Spring Bean的载入流程3.讲讲volatile和synchronized底层，用了他们之后在内存是怎么走的？3.redis会多少？分布式锁了解吗？（下面开始不对劲了）4.那你们用的是redis分布式锁对吧，那我问你一下，不用redis怎么做分布式锁？5.不用任何组件如何做分布式锁？（寄）6.不用任何组件，如何做分布式限流？原生你怎么实现令牌桶，阻塞队列吗？7.设计一个高并发论坛？讲一下数据库和缓存的详细设计8.redis怎么做持久化？redis集群做持久化需要什么细节？9.索引失效场景讲一下，为什么like和范围查询会失效？底层了解过吗？10.MySQL都有什么Log？MVCC底层原理讲一讲？11.你们做分布式用的什么自动化平台，莫非是手动部署？算法题：15分钟手撕一道leedcode hard KMP题隔天收到感谢信

一只末影酱：分布式锁这个可以用zk，etcd

不用组件的话，直接用数据库唯一索引算法出KMP的话，能不能让面试官换啊

字节跳动一面955人在聊

查看11道真题和解析

点赞评论收藏

分享

04-14 22:22

中山大学算法工程师

大厂面经｜腾讯 AI Lab NLP 算法岗

✅一面1️⃣时间:1h+自我介绍2️⃣项目介绍:问的很细，过程中不停打断提问算法竞赛项目，整体数据处理流程、模型效果评估方法、心得体会3️⃣八股:简单介绍一下 BERT 和 TransformerAttention 和 self-attention 有什么区别？4️⃣Transformer 的复杂度Bert 用的什么位置编码，为什么要用正弦余弦来做位置编码？还知道其他哪些位置编码？5️⃣除了 bert 还做过哪些模型的微调？为什么现在的大模型大多是 decoder-only 的架构？6️⃣讲一下生成式语言模型的工作机理用过 LoRA 吗？讲一下原理？7️⃣算法题最大子段和跳台阶其他问后续安排和实习时长，以及反问✅二面1️⃣自我介绍2️⃣项目:深挖八股Transformer 结构和 LSTM 的区别和优势，Transformer 怎么体现时序信息？3️⃣Transformer Encoder 和 Decoder 的输入输出和结构BatchNorm 更多用在视觉上，LayerNorm 更多用在语言上，为什么有没 chatGLM，LLaMA 等部署、微调经历？4️⃣有没有了解过大模型加速推理？5️⃣讲一下 Flash Attention?6️⃣算法题先说思路再写代码1、数组中的第K个最大元素2、数组 nums 表示若干个区间的集合，请你合并所有重叠的区间，并返回一个不重叠的区间数组，该数组需恰好覆盖输入中的所有区间。输入: nums =[[1,3],[2,6],[8,10],[15,18]]输出：[[1,6],[8,10],[15,18]]📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看20道真题和解析

点赞评论收藏

分享

评论

点赞

1

招聘动态

华泰证券Fintech星战营

vivo蓝极星

25届+26届招募启动

国央企投递合集（含实习）

26届投递链接合集

快手

25届补录+26届实习

26届实习内推合集

京东TGT

海信集团

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 毕业季，给职场新人一些建议 #

26569次浏览 455人参与

# 你的房租占工资的比例是多少？ #

23042次浏览 255人参与

# 我的求职总结 #

29884次浏览 501人参与

# 计算机专业还有必要去大厂卷吗 #

20626次浏览 109人参与

# 我的实习日记 #

2444258次浏览 25447人参与

# 薪资一样，你会选择去大厂还是小公司 #

16757次浏览 102人参与

# 辞职之后最想做的一件事 #

11438次浏览 166人参与

# 你见过最离谱的招聘要求是什么？ #

188685次浏览 1404人参与

# 选offer应该考虑哪些因素 #

20590次浏览 300人参与

# 金蝶求职进展汇总 #

44147次浏览 242人参与

# 非技术岗薪资爆料 #

355861次浏览 2747人参与

# 晒一晒你收到的礼盒 #

62761次浏览 375人参与

# Offer比较，求稳定还是求发展 #

49620次浏览 239人参与

# 你怀疑过自己的专业选择吗？ #

17590次浏览 201人参与

# 为了秋招你都做了哪些准备？ #

11113次浏览 166人参与

# 你想吐槽公司的哪些规定 #

17807次浏览 68人参与

# 工作中的卑微时刻 #

9144次浏览 56人参与

# 第一份工作应该只看薪资吗 #

139040次浏览 1462人参与

# 我的工作日记 #

98847次浏览 1273人参与

# 为什么国企只招应届生 #

165941次浏览 1112人参与

牛客网
牛客企业服务