首页 / 大模型面经

#

大模型面经

#

19053次浏览 271人互动

此刻你想和大家分享什么

热门最新

06-23 22:40

中山大学算法工程师

大模型应用面经，已归类！

#简历中的项目经历要怎么写# #大模型# #大模型面经#

点赞评论收藏

分享

05-28 20:13

中山大学算法工程师

强度拉满:网易大模型算法岗

1️⃣一面 时间：9.12  时长：1hcode：统计岛屿数量、最大岛屿面积，DFS方法解了然后介绍实习项目，面试官非常耐心地听，没有打断八股1.bert和gpt的区别？（从模型架构、训练方式、使用场景方面回答的）2.训练/微调一个LLM的流程？3.实习时用的 megatron 框架吗，对分布式训练框架了解多少？（回答了deepspeed和megatron区别，以及几种并行方式，以及deepspeed的三种zero）4.了解强化学习吗，跟SFT有什么区别？5.反问：业务，对岗位的期望💣评价：有点紧张，算法题有一个小失误没注意到2️⃣二面时间：9.14  时长：1h八股1.写一下 attention 公式（代码实现了下）2.训练时为什么要mask，推理时也需要吗？两处有什么区别？推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别？4.计算attention时为什么要除以d_k，这个d_k的含义是？5.attention计算时还有哪些scale处理？6.attention中softmax函数作用、公式、为什么有减去最大值的处理？换个函数还能这样处理吗？7.解释数值上溢、下溢问题8.讲一下prompt书写的经验，如何判断prompt是否达标，如何改进prompt9.讲一下SFT，会对哪部分计算loss？为什么？10.讲一下deepspeed11.训练用一个7b模型要占用多少显存？不同zero阶段能够节省多少显存？12.训练模型时用了几张卡，有遇到什么异常中断问题吗？反问： 在乎候选人什么能力？对面试表现有哪些改进意见？💣评价： 基础不够扎实，网上有的知识都能回答上来，在同龄人里算比较优秀，欠缺一些多机多卡实践经验。

查看17道真题和解析

点赞评论收藏

分享

05-18 20:42

中山大学算法工程师

211本硕腾讯大模型算法岗面经

#简历中的项目经历要怎么写# #大模型# #互联网大厂招聘# #算法岗面试# #大模型面经#

腾讯二面1065人在聊

点赞评论收藏

分享

05-30 16:03

门头沟学院算法工程师

B站大模型一面

📍面试公司：B站💻面试岗位：大模型❓面试问题：手撕多头注意力机制，然后问了为什么除以dk，除了注意力，transformer还有什么，batch norm和layer norm的区别，非线性是谁提供的对比学习的loss聊了很久的论文，具体都有什么场景dpo和ppo的区别，包括理论上，还有项目实际落地闲聊+反问🙌面试感想：体验良好，整体氛围很轻松

查看8道真题和解析

点赞评论收藏

分享

05-15 21:07

中山大学算法工程师

字节大模型Rag算法面试题汇总

今天老师为大家梳理了字节算法岗关于大模型Rag的面试题，供各位同学参考。1️⃣ LORA 原理：解释 LORA(Low-RankAdaptation)的核心思想，如何通过低秩矩阵实现参数高效微调?数学形式如何表达?2️⃣Self-Attention机制：自注意力机制中 O/K/ 矩阵的作用是什么?如何通过缩放点积计算注意力权重?公式推导并解释Softmax 的意义。3️⃣位置编码：Transformer为何需要位置编码?主流 LLM(如 LLaMA、GPT)使用哪种位置编码(如 ROPE)?相比绝对/相对位置编码有何优势?4️⃣Seq2Seg 模型：Seq2Seq模型的核心组件是什么?Encoder-Decoder结构如何解决长程依赖问题?5️⃣RAG技术：RAG(检索增强生成)的完整链路包含哪些步骤?为什么它能提升生成质量?6️⃣大模型幻觉：大模型产生幻觉的根本原因是什么?7️⃣显存计算：7B 模型在训练和推理时的显存占用如何估算?显存与参数量、批次大小、序列长度的关系是什么?8️⃣实习与论文：详细说明实习中解决的一个技术难点，涉及哪些模型或算法?如何评估效果?9️⃣链表操作：删除链表倒数第 N 个节点的算法思路?如何用双指针法实现?边界条件(如头节点删除)如何处理?📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看9道真题和解析

点赞评论收藏

分享

不愿透露姓名的神秘牛友

03-03 17:07

网易大模型实习生

📍面试公司：网易有道👜面试岗位：大模型 实习生📖面试问题：1. top-k和top-p2. 对比损失和llm中的temperature3. lora微调4. llm中的强化学习5. 训练样本的文本如何构建的，输出的格式6. rag🙌面试体验：问的很细，难，一轮直接挂

查看6道真题和解析

点赞评论收藏

分享

05-09 19:12

中山大学算法工程师

推荐算法3轮面经

今天老师给大家分享推荐算法3轮面经，供各位同学参考。1️⃣第一轮1、先自我介绍，我的习惯是经历简单介绍一下，然后自然转向准备最充分的一个项目开始详细讲，面试官感兴趣的话最好，不感兴趣的话会直接打断的。主要介绍了项目的背景，难点和解决方案，面试官关心的点主要集中在问题抽象和损失函数，讲清楚为什么这么做，项目大概聊了半小时左右2、机器学习基础：推导 lr，写出loss和梯度（比起推导svm来说简直就是送分题，要是写不出来的话估计会直接挂，基础还是要好好准备）3、算法 链表对折 1 2 3 4 5 变成 1 5 2 4 3拆解一下题目，(灵活)找到链表的中点 牛客题霸: 链表中倒数第k个节点 是找中点的复杂版，都是双指针解法翻转后半段链表 牛客题霸: 翻转链表合并两个链表 牛客题霸: 合并两个有序链表 是复杂版2️⃣第二轮1、先介绍项目，主要聊了项目背景和收益，收益具体怎么衡量，项目如何上线生效2、算法题 m*n的二维数组，只能往右或者往下，找最短路径，n空间 牛客题霸: 矩阵的最小路径和3、有了解过设计模式吗？(答了常见的工厂模式和单例模式，对应的应用场景，简单扯了一下装饰器模式，也是看xgb源码看到的，其实不会用)4、系统设计需要注意什么，如何设计一个系统，系统性能如何评估，需要考虑哪些指标（考察点应该是线上的系统了，指标比如内存使用率，qps，99 39 49时间之类的）5、之前帮阿里云录制过一些深度学习的入门课程，简单聊了一下相关的内容3️⃣第三轮1、先介绍项目，主要聊了项目背景和收益，收益具体怎么衡量，项目如何上线生效2、介绍xgbgbdt和xgb的区别(居然没有问lgb)怎么选最优分裂节点，怎么加速，预排序有什么作用，怎么分箱，等宽还是等深怎么处理缺失值的，预测时候缺失值怎么办3、为什么离职，希望一份什么样的工作4、有没有什么问题想要了解的（问了业务场景 工作内容）📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看10道真题和解析

点赞评论收藏

分享

06-26 21:12

中国科学技术大学深度学习

字节番茄多模态算法面经

三次技术面 1. 自我介绍 + 论文讲解 + leetcode easy + 反问2. 自我介绍 + 论文讲解 + 非 leetcode hard + 反问3. 自我介绍 + 论文讲解 + 开放式问题（技术探索）无八股拷打 感觉很 nice

查看6道真题和解析

点赞评论收藏

分享

07-01 13:25

中山大学算法工程师

有点狼狈:抖音推荐算法一二面😮‍💨

✅第一轮 抖音推荐算法一面✴️1、项目问了一下快手的工作2、八股介绍一下MMOE,极化现象知道吗，如何解决？L1和L2的区别介绍一下bn过拟合还有什么其他方法3、code最大子数组和链表交替打印4、反问业务是图文推荐，据说老板很重视，冲冲冲✅第二轮抖音推荐算法二面✴️1、项目介绍了一下快手实习，很深入探讨2、code隐马尔可夫模型，牛逼我只能说给定PI, Q, P矩阵，玩N次游戏，求N次游戏得到的R的概率刚开始说了个暴力解，然后在面试官提醒下，弄出来个DP算法，非常考验数学和DP的理解3、八股Adam的公式，额外的开销AUC定义，AUC如何计算，如何优化介绍一下self-attention📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

点赞评论收藏

分享

05-04 17:51

中山大学算法工程师

推荐算法3轮面经

今天老师给大家分享推荐算法3轮面经，供各位同学参考。1️⃣第一轮1、先自我介绍，我的习惯是经历简单介绍一下，然后自然转向准备最充分的一个项目开始详细讲，面试官感兴趣的话最好，不感兴趣的话会直接打断的。主要介绍了项目的背景，难点和解决方案，面试官关心的点主要集中在问题抽象和损失函数，讲清楚为什么这么做，项目大概聊了半小时左右2、机器学习基础：推导 lr，写出loss和梯度（比起推导svm来说简直就是送分题，要是写不出来的话估计会直接挂，基础还是要好好准备）3、算法 链表对折 1 2 3 4 5 变成 1 5 2 4 3拆解一下题目，(灵活)找到链表的中点 牛客题霸: 链表中倒数第k个节点 是找中点的复杂版，都是双指针解法翻转后半段链表 牛客题霸: 翻转链表合并两个链表 牛客题霸: 合并两个有序链表 是复杂版2️⃣第二轮1、先介绍项目，主要聊了项目背景和收益，收益具体怎么衡量，项目如何上线生效2、算法题 m*n的二维数组，只能往右或者往下，找最短路径，n空间 牛客题霸: 矩阵的最小路径和3、有了解过设计模式吗？(答了常见的工厂模式和单例模式，对应的应用场景，简单扯了一下装饰器模式，也是看xgb源码看到的，其实不会用)4、系统设计需要注意什么，如何设计一个系统，系统性能如何评估，需要考虑哪些指标（考察点应该是线上的系统了，指标比如内存使用率，qps，99 39 49时间之类的）5、之前帮阿里云录制过一些深度学习的入门课程，简单聊了一下相关的内容3️⃣第三轮1、先介绍项目，主要聊了项目背景和收益，收益具体怎么衡量，项目如何上线生效2、介绍xgbgbdt和xgb的区别(居然没有问lgb)怎么选最优分裂节点，怎么加速，预排序有什么作用，怎么分箱，等宽还是等深怎么处理缺失值的，预测时候缺失值怎么办3、为什么离职，希望一份什么样的工作4、有没有什么问题想要了解的（问了业务场景 工作内容）📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看9道真题和解析

点赞评论收藏

分享

04-14 15:44

门头沟学院算法工程师

美团二面

📍面试公司：美团👜面试岗位：算法二面📖面试问题：拷打简历的论文，项目和竞赛。非常细节。穿插的八股主要集中在ppo和lora，关于ppo的四个模型和actor loss，lora具体的精度改变。手撕层序遍历和反转链表（层序遍历bug没改出来）🙌面试体验：体验不错，就是我太菜了许愿团子收留我，不想面了

查看5道真题和解析

点赞评论收藏

分享

04-12 02:04

门头沟学院算法工程师

美团算法一面面经

📍面试公司：美团👜面试岗位：算法📖面试问题：主要分了两部分，简历里项目，论文，竞赛和手撕。项目是穿插着八股问的，下面是涉及到八股的一些问题1.如何缓解大模型的复读机问题和幻觉问题2.讲一下大模型的采样3.为什么做了sft还要做ppo4.讲一下qlora的好处5.讲一下ppo的四个模型6.sft数据的多样性怎么保证7.dpo和ppo相比的优势在哪里8.有没有考虑过rag，具体怎么实施的手撕是基础的单头注意力，写完之后问了怎么改多头，为什么要除以根号dk和单头改多头的参数量会不会变。反问问了一下业务和对于大模型定量计算的看法🙌面试体验：体验不错，没答上的地方也只是说下去看看。

查看10道真题和解析

点赞评论收藏

分享

03-28 00:08

门头沟学院算法工程师

淘天一面面经

📍面试公司：阿里淘天👜面试岗位：大模型算法📖面试问题：最开始是自我介绍先拷打了论文和项目问了两道大模型八股，lora和deepseek的进展一道业务开放题反问环节🙌面试体验：体验良好，面试过程非常轻松，面试官也很温和。

查看4道真题和解析

点赞评论收藏

分享

03-28 14:47

哈尔滨工业大学产品经理

面试官：产品如何进行大模型选型？

作为AI产品经理，大模型选型需要从业务目标、技术特性和资源投入三个维度进行系统性评估。分步骤的选型：1. 场景需求拆解- 任务类型：区分生成式（GPT）、理解式（BERT）、多模态（CLIP）等任务需求- 性能指标：明确时延要求（如对话场景&amp;lt;2s）、准确率阈值、内容安全等级- 输入输出：处理文本长度（如法律文本需支持10k tokens）、多语言支持需求2. 技术参数评估- 模型架构对比：Transformer层数（如LLaMA 7B vs 13B）、注意力机制差异- 性能基准测试：在HuggingFace OpenLLM Leaderboard等榜单比对MMLU/HELM得分- 领域适配性：检查是否经过垂直领域微调（如Med-PaLM 2医疗专用模型）3. 成本效益分析- 推理成本计算：API调用成本（如GPT-4 $0.03/1k tokens）vs 自建GPU集群成本- 算力需求评估：模型参数量与GPU显存关系（7B模型需至少16G显存）- 长尾运维成本：监控维护、版本迭代、安全补丁更新等隐性成本4. 工程化适配度- 部署方案验证：测试ONNX转换效果、量化后精度损失（INT8量化典型损失2-5%）- 扩展能力测试：分布式推理效率、最大并发请求承载量- 工具链完整性：配套的Prompt工程工具、评估体系、持续训练Pipeline5. 风险合规审查- 数据隐私合规：评估模型训练数据来源合法性（如排除版权争议数据）- 输出可控性：测试有害内容生成概率及防护机制有效性- 许可证审查：确认商用限制（如LLaMA商用需单独授权）6. 迭代路线规划- 短期方案：采用API快速验证（如Azure OpenAI）+ RAG增强时效性- 中期过渡：微调行业小模型（LoRA适配器方案）- 长期演进：构建混合模型架构（大模型+规则引擎+传统ML）

点赞评论收藏

分享

06-22 22:15

中山大学算法工程师

腾讯混元二面：大模型微调问的贼细

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

腾讯二面1065人在聊

点赞评论收藏

分享

04-21 14:32

中山大学算法工程师

暑期实习投递结束

已签腾讯 投递了大中小共30+公司目前看来大模型相关的岗位主要是大厂在招人投递的中小厂除了理想和巨人网络都没有约面大厂阿里腾讯字节蚂蚁都顺利约面了如果方向对口的话流程推进会非常快，腾讯从一面到oc共7个工作日整体面试下来感觉面试更看重项目落地，方向最好够深入我做的是数据相关工作，基本上大厂面试只问了我项目和数据处理流程，没有问八股手撕只需要刷hot100即可，一道手撕题前一天字节考完，第二天腾讯又考了一遍祝各位顺利上岸

点赞评论收藏

分享

03-07 19:56

门头沟学院后端

26届，开发or算法

如题，我目前在字节做后端的实习，此前有一段知名开源经历和中厂后端实习，但是觉得开发工作枯燥而且工资比不上算法，职业上限也是算法更高。再说算法，目前是中了一篇一作顶会llm方向，n作的数篇，没有算法实习，这个bg做llm如何？目前算法刷的还挺多，Python手撕也有在刷，背背八股可以去大厂吗，也不是想做基座这种硬核方向，蹭个应用方向也可以。还请各位大佬指点迷津

投递字节跳动等公司8个岗位

点赞评论收藏

分享

05-21 16:06

门头沟学院算法工程师

暑期实习遇到的手撕代码

主要是大模型，也有搜推问的，整体都不难手写多头注意力机制（两次）合并k个有序链表复杂度为logn的排序最长无重复子串的长度买卖股票的最佳时机二叉树的层序遍历反转链表无重复字符的最长子串

查看8道真题和解析

点赞评论收藏

分享

05-01 19:10

中山大学算法工程师

为什么现在 LLM 很少使用 Dropout了？

翻遍各种大模型的实现，虽然结构上可能保留了 dropout 的实现，但是采样概率都设置为 0 了。唯一一个比较新的，还用 Dropout 的模型是 Meta 训练的 Galactica 模型。那为什么现在不用了呢？核心还是要弄清楚 Dropout 的使用场景。Dropout 之前在深度学习当中是一个特别好用的方法，可以防止过拟合，提高泛化。所以说，当模型较大，数据较少的时候，使用 Dropout 是比较合适的。现在大模型处在什么状态呢？✅预训练在预训练阶段，目前可能还是处于欠拟合的状态。之所以说可能，是基于目前公开的一些论文的出的结论。但是现在闭源的公司在采用大量数据合成的情况下，已经训练足够充分或者接近充分也说不定。以 llama 一系列论文为例，训练 llama 1 的时候，龙猫 Scaling law 里面提到 GPT3 是一个训练很不充分的模型。然后给出的数据配比的建议是，10B 的模型要采用 200B 的 token 来训练。但是 llama 1 采用了 7B 的模型，训练量 1T 的 token 发现性能依然有提升。而且预训练所有的语料一般只过一个 epoch，某些特定的领域可能过 2个 epoch，可以认为样本的重复率很低。所以，在数据足够多，多样性足够而且没有太多重复的情况下，大模型在预训练阶段仍然没有过拟合的风险。也就完全不需要采用 dropout。✅Dropout 就完全不需要了么？如果上面的条件不能满足，Dropout 还是有用武之地的。比如前面提到的 Galactica 模型。这个模型和其他大模型不太一样的地方是训练了 4.25 个 epoch，因为他们认为高质量的数据更重要一些，但是又没有那么多，所以就 repeat 数据了。在论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中，详细列举了数据 Repeat 对训练 LLM 的影响，并且证明了 Dropout 可以缓解数据重复带来的性能损失。在文章《Can LLMs learn from a single example?》中，也提到了在 SFT 的时候，少量的重复数据就会降低模型的性能。这也符合常理，SFT 的数据分布和预训练的通常是不太一样的，重复的数据会让模型拟合新的分布，从而忘掉旧的分布。文中同样也提到 Dropout 可以缓解数据重复带来的影响。所以 Dropout 在数据量较少，多样性不高，需要 repeat 的场景下，依然是一个减少过拟合的很方便的手段。比如现在已经有一些在 LoRA 微调的时候采用 Dropout 的研究了。

点赞评论收藏

分享

03-27 16:57

哈尔滨工业大学产品经理

面试官：如何构建大模型产品数据飞轮？

一、明确数据飞轮的核心要素1. 数据供给闭环：用户使用产品→生成行为数据→优化模型→提升用户体验→吸引更多用户。2. 关键指标对齐：需定义数据质量（多样性、代表性）、模型效果（准确率、响应速度）、业务指标（用户留存、付费率）的关联性。二、构建数据飞轮的4个阶段阶段1：冷启动设计- 策略：- 使用开源数据+合成数据+少量人工标注，快速搭建最小可用模型（MVP）。- 产品化设计：在用户界面嵌入反馈入口（如“点赞/踩”、错误报告），主动引导用户标注低置信度结果。- 案例参考：ChatGPT初期基于人类反馈强化学习（RLHF），通过用户对回答的排序选择优化模型。阶段2：数据采集与治理- 数据来源：- 显式反馈：用户评分、标注错误、偏好选择。- 隐式反馈：停留时长、点击热图、会话中断率。- 治理关键：- 去噪与标注：自动化清洗（如去重、过滤恶意数据）+ 众包/专家复核关键样本。- 数据分布监控：避免长尾问题，通过主动学习（Active Learning）补充稀缺场景数据。阶段3：模型迭代与效果验证- 快速迭代机制：- 建立自动化训练管道（如Airflow调度），支持小步快跑式微调（如每周更新）。- A/B测试：新旧模型分桶对比，验证指标提升是否显著（如任务完成率提升5%）。- 成本控制：- 动态采样策略：仅对高价值数据（如用户高频提问领域）全量训练，其余部分采样。阶段4：闭环反馈强化- 用户感知优化：- 实时展示模型进步（如“根据您的反馈，该功能准确率提升20%”），增强用户参与感。- 设计激励体系（如积分、特权）鼓励用户反馈。- 长期价值挖掘：- 分析数据飞轮带来的边际成本下降（如单位训练数据带来的收益递增）。

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务