横扫腾讯/字节/PDD:2025大模型算法社招面经

1️⃣自我介绍
2️⃣项目拷打
这一部分决定了面试官对于你经验的评估,项目的理解要深一些,这个只能通过不断打磨完善项目经历。
✅微调项目:
1.业务背景
2.数据的构成,是否使用了合成数据
3.训练的过程中用了什么方法(为什么用这样的方式,用别的方式会有什么问题,是否尝试过)
4.如何评估整体的效果
5.微调之后是否还会出现幻觉的问题,出现了的话应该怎么处理
6.这个能力是否只能用在当前业务场景,是否可以作为一个通用的能力
7.是否尝试过用其他的基座模型
✅应用层项目:
1.业务背景
2.逻辑框架
3.优化前和优化后的能力差距
4.遇到最大的困难是什么?怎么解决的
是否还有别的优化方式
5.某个流程是否可以进行再优化
6.上线之后的效果反馈
3️⃣通识考察
(1)Transformers 和之前的模型的区别,为什么 Transformers 好?
(2)介绍下 Bert,框架,预训练和后续的微调任务?
(3)为什么 Bert 适合做向量模型,底层原理是什么?
(4)RoBERTa 做了什么优化?
(5)想要大模型输出的内容都为 json 格式,怎么实现?
(6)OOM 问题怎么处理
(7)大模型的参数量是怎么计算出来的?(8)DeepSeek R1 的训练方式,GRPO 的原理是什么?
(9)基于过程的强化学习和基于结果的强化学习的差异是什么?
(10)Agent 的概念是什么?整体流程是怎么样的?
(11)DeepSeek R1 对于 Agent 的能力是否有提升,如何进行运用?
(12)RAG 的整体流程和评估方式?
(13)如何解决 RAG 中信息覆盖率低、幻觉、逻辑计算的问题?
(14)大模型的数据合成应该怎么做?有哪些方式?
(15)DeepSpeed 的三个 stage 分别是什么?有什么作用?
(16)模型并行和数据并行的区别是什么?这两种方式的数据流和梯度是怎么更新的
4️⃣手撕代码
✅算法代码:
手写位置编码
手写多头注意力机制
Leetcode:
零钱兑换
最长递增子序列
打家劫舍
最长公共子序列
跳跃游戏
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。

全部评论

相关推荐

1️⃣自我介绍:【⌚️10分钟】点评:流水账,有些磕磕绊绊,自我介绍环节的项目介绍的很详细,非常冗余。优化:写逐字稿,背诵,提升语言表达能力。2️⃣经常问题的问题优化:【⌚️20分钟】1:transform结构了解吗?回答点评:回答的很简单,5分吧,说了transform的结构是encode-decode结构,分块,每个块里面有四个组建,MHA、FFN、LN、残差链接,介绍和理解不深刻。提升指导:梳理回答逻辑结构,讲解MHA、FFN、LN、残差链接的添加逻辑和含义,其中MHA给出代码层面理解,从2分钟的回答变成6分钟的回答。2:多头自注意力机制是啥?公式是啥?代码你会写吗?回答点评:讲了公式,但是掌握的不够细致,pytorch代码框架不熟悉,attention_mask机制没有写出来。提升指导:讲述代码的原理,如何使用代码回答问题,展示自己的理解深刻。3:rag中的多路召回是什么?embeding为啥用智源的BGE-large/Base?回答点评:使用了BM25和向量召回,但是没有讲出来两个的区别和联系提升指导:先讲原理,再讲述下语义理解能力和泛化能力的区别,计算的效率,两个互为补充等。3️⃣不会回答的问题指导:【⌚️40分钟】1:  LN不太会回答,看网上的回答很多,但是不是理解层面。2:我的向量召回是faiss做的,和这个相关的问题我如何准备?3:经常会被问到rag用的啥框架,这个问题如何回答?还需要准备框架的知识吗?4:面试官经常问我,rag的模型是啥?有做微调吗?如果不做微调怎么回答?5:大模型还需要补充那些知识?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
点赞 评论 收藏
分享
✅小红书商业化部门 NLP-内容理解 4面1️⃣第一面1、n时间复杂度找出数组第K大的值说出思路了 用快排思想,不过没写出来,不过面试官还行 没写出来也让我过了然后问的比较古老的一些Nlp细节2、比如问你为啥分类任务用交叉熵,不用MSE?直接反向传播原理公式,如果用MSE 你最后可能会出现梯度消失的现象还问了LN BN的细节准备的比较到位,所以都答出来了2️⃣第二面问的我好像是概率题,没写代码1、你一个硬币,均值多少次,可以丢出正反面问项目3️⃣第三面应该是答的最好的了,项目答的应该让面试官很满意,然后代码题的话1、第一个 就是 一个矩阵,从左往右 升,从上往下升,n时间复杂度,找出target我觉得太简单了,让面试官再出了一个2、又给了一道:动态规划,最长递增子序列✅知乎:AI中台 三面1️⃣第一面1、聊项目 模型细节,attention的作用,为啥要用FFN,还有LN中间说到一个点,我说为啥要在LN重新训练两个参数,我说是不然影响性能,但是其实应该是影响泛化能力2、代码题目:找出字符串的最长回文子串2️⃣第二面要我写attention的伪代码我写了一下 不过其实还要加上Mask 忘记加了还问了我 会用rebase操作吗,我说不会。问了交叉熵的细节,到底对预测对的产生loss 还是预测错的产生作用。代码题目不太记得3️⃣第三面项目负责人,项目聊的很开心代码题没写出来,不过也让我过了1、代码题目:给我一个字符串 让我判断是不是一个数学算式阿里 高德 ✅1️⃣第一面面试官挺直接的,问了项目,然后问我只做了分类是吗,我说的是的,他说你直说就是了。。。 尴尬1、概率题 给我一个函数 可以等概率生成0-5随机数字 f5() 要我依靠这个 生成一个f7()2、给我一个生成器 随机生成01 要我等概率生成一个生成器 做一个二分判别2️⃣第二面1、P9大佬,问到我一个问题,如果你需要100W数据 你怎么去跟你上司申请你要100W数据的标注资源。或者说 你现在手里有10W标注数据,你觉得你还需要再继续增加标注数据吗我觉得这个问题是我没想到的,因为我这边业务线训练数据都是比较充足2、代码题 给你一个数组,给我n时间复杂度 生成一个数组 这个数组的每个位置的字 都等于原先数组其他位置的乘积。 思路:空间换时间🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看14道真题和解析
点赞 评论 收藏
分享
评论
1
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务