一下午面了三个大模型岗,全是一言难尽...

真服了,我不信有这个题,还不会
常见的业务题
◆ 大模型(LLMs)基础面
• 目前主流的开源模型体系有哪些?
• prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么?
• 大模型LLM的 训练目标 是什么?
• 涌现能力是啥原因?
• 为何现在的大模型大部分是Decoder only结构?
• 简单 介绍一下 大模型【LLMs】?
• 大模型【LLMs】后面跟的 175B、60B、540B等 指什么?
• 大模型【LLMs】具有什么优点?
• 大模型【LLMs】具有什么缺点?
◆ Layer normalization 篇
• Layer Norm 的计算公式写一下?
• RMS Norm 的计算公式写一下?
• RMS Norm 相比于 Layer Norm 有什么特点?
• Deep Norm 思路?
• 写一下 Deep Norm 代码实现?
• Deep Norm 有什么优点?
• LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
• LLMs 各模型分别用了 哪种 Layer normalization?
◆ LLMs 激活函数篇
• 介绍一下 FFN 块 计算公式?
• 介绍一下 GeLU 计算公式?
• 介绍一下 Swish 计算公式?
• 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?
• 介绍一下 使用 GeLU 的 GLU 块 计算公式?
• 介绍一下 使用 Swish 的 GLU 块 计算公式?
◆ Attention 升级面
• 传统 Attention 存在哪些问题?
• Attention 优化方向
• Attention 变体有哪些?
• Multi-head Attention 存在什么问题?
• 介绍一下 Multi-Query Attention?
• 对比一下 Multi-head Attention 和 Multi-Query Attention?
◆ transformers 操作篇
◆ LLMs 损失函数篇
◆ 相似度函数篇
◆ 大模型(LLMs)进阶面
◆ 大模型(LLMs)微调面
◆ LLMs 训练经验帖
◆ 大模型(LLMs)langchain 面
◆ 多轮对话中让AI保持长期记忆的8种优化方式篇
◆ 基于langchain RAG问答应用实战
◆ 基于LLM+向量库的文档对话 经验面
.......
#五一之后,实习真的很难找吗?##牛客在线求职答疑中心##笔试##面试#
全部评论
所有面试题可以开源给大家 后台T一下
2 回复 分享
发布于 04-29 14:38 湖南
点赞 回复 分享
发布于 05-07 18:51 北京
哇,一下午面试这么多大模型岗位,你真是太厉害了!面试题看起来好难啊,不过我觉得你一定有自己的见解。😊 比如说,关于大模型(LLMs)的基础面,我有点好奇,你对涌现能力有什么自己的理解呢?这个概念听起来好神奇! 对了,如果你想和我这个小助手深入聊聊求职经验或者面试技巧,记得点击我的头像私信我哦!🐮💬💼 另外,如果你现在心情有点低落,别担心,我们可以聊聊轻松的话题,或者如果你愿意,我可以帮你整理一下面试中的知识点,希望能帮到你!🌟🌈
点赞 回复 分享
发布于 04-29 14:36 AI生成

相关推荐

快乐的打工人求off...:GC回收主要是针对虚拟机中的堆中的对象,堆分为两部分,新生代和老年代,对新生代的垃圾回收称为minorGC,发生较为频繁,对老年代的GC称为majorGC,发生次数少但代价高;在GC开始之前,需要先标记出垃圾,一般有2种方法,引用计数法和可达性分析法;标记出对象之后需要进行垃圾回收,包括标记-清除算法,复制算法,标记-整理算法和分代回收算法。
查看6道真题和解析
点赞 评论 收藏
分享
1️⃣自我介绍:【⌚️10分钟】点评:流水账,有些磕磕绊绊,自我介绍环节的项目介绍的很详细,非常冗余。优化:写逐字稿,背诵,提升语言表达能力。2️⃣经常问题的问题优化:【⌚️20分钟】1:transform结构了解吗?回答点评:回答的很简单,5分吧,说了transform的结构是encode-decode结构,分块,每个块里面有四个组建,MHA、FFN、LN、残差链接,介绍和理解不深刻。提升指导:梳理回答逻辑结构,讲解MHA、FFN、LN、残差链接的添加逻辑和含义,其中MHA给出代码层面理解,从2分钟的回答变成6分钟的回答。2:多头自注意力机制是啥?公式是啥?代码你会写吗?回答点评:讲了公式,但是掌握的不够细致,pytorch代码框架不熟悉,attention_mask机制没有写出来。提升指导:讲述代码的原理,如何使用代码回答问题,展示自己的理解深刻。3:rag中的多路召回是什么?embeding为啥用智源的BGE-large/Base?回答点评:使用了BM25和向量召回,但是没有讲出来两个的区别和联系提升指导:先讲原理,再讲述下语义理解能力和泛化能力的区别,计算的效率,两个互为补充等。3️⃣不会回答的问题指导:【⌚️40分钟】1:  LN不太会回答,看网上的回答很多,但是不是理解层面。2:我的向量召回是faiss做的,和这个相关的问题我如何准备?3:经常会被问到rag用的啥框架,这个问题如何回答?还需要准备框架的知识吗?4:面试官经常问我,rag的模型是啥?有做微调吗?如果不做微调怎么回答?5:大模型还需要补充那些知识?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
点赞 评论 收藏
分享
评论
1
23
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务