算法打工人阿旺 - 个人主页动态 - 牛客网

发布(176) 评论刷题收藏

10-08 22:26

中山大学算法工程师

顺丰大模型面经回放

1.自我介绍2.介绍RAG流程，分段有没有做优化；3.Qwen3系列和bge系列的原理，Qwen3系列编码模型是怎么训练的；4.self-attention公式；为什么要scaling5.Agent的思想是什么，Agent包含哪些部分；6.RAG怎么评估，用了哪些指标；7.RAGAS有哪些指标，为什么不直接用库；8.介绍Agent怎么做任务规划和问题分解9.GRPO与PPO的区别；GRPO的缺点；介绍GSPO10.SFT数据集怎么构建，问题不够多样化怎么解决；11.RLHF，介绍PPO，包含多少个模型；📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看11道真题和解析

0 点赞评论收藏

分享

10-07 23:06

中山大学算法工程师

26届字节大模型实习算法岗面经

1.自我介绍2.critique mode 怎么训练的，会不会存在 bias3.介绍下 RLHF 流程4.BN和 LN 的区别， BN 在训练阶段和推理阶段有何不同5.如果让你用 llm 做一个商品类目识别的项目，你会如何设计6.介绍下 transformer , attention 的细节和 mlp 的作用7.deepspeed的原理8.了解 dp 和 ddp ，介绍一下原理和异同9.在 nlu 任务上，你觉得 bert 和 llm 哪个效果会更好，为什么6.介绍下 RLHF 流程7. deepspeed 的原理8.了解 dp 和 ddp ，介绍一下原理和异同9.如果让你用 llm 做一个商品类目识别的项目，你会如何设计10.快排的思想，时间复杂度11.代码题: code ：手写一个多分类的公式，并用代码实现📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看11道真题和解析

0 点赞评论收藏

分享

10-06 22:47

中山大学算法工程师

夸克大模型实习面经

1．自我介绍＋项目介绍2．讲讲你对 transformer 的了解3．有哪些常用的解码策略， topp 和 topk 的具体细节，以及实现上的差别4. 意图分流的 agent 怎么做微调的，用了多少数据5.如何做 embedding 微调的，如何构造正负样例，训练的 loss 是什么6.RAG有哪些可优化的地方7．你的 RAG 项目中用到了 agent 吗，一般 agent 会用在RAG 链路中的哪些部分8．做 sft 时是怎么做数据配比的，参数具体怎么设置的9.RLHF的流程，有没有训过 PPO10. deepseed 的原理，zero1,2,3怎么做的11.了解过排序模型吗，讲几个经典的排序模型吧12．说一下 vllm 部署8*7B的 MOE 模型每秒大概能推多少token13．对比学习了解吗，讲一下（比较突然，不知道为啥要问）14.code :实现rand5到rand7

查看14道真题和解析

0 点赞评论收藏

分享

10-05 23:11

中山大学算法工程师

同为半精度，FP16和BF16的区别是什么？

✅浮点数的组成浮点数由三个部分组成：符号位（ S )＋指数位（ E )+尾数位（ M )。以FP16为例：1位符号＋5位指数+10位尾数＝16位●符号位表示正负●指数位代表可表示的数值范围，位数越多可表示数据的范围越大●尾数位就是有效数字，位数越多可表示数据的精度越高✅FP16和BF16FP16是5位指数＋10位尾数BF16是8位指数＋7位尾数●BF16可表示数据的范围更大（与FP32一样，8位指数），而FP16范围较小●FP16精度更高，BF16精度较低✅为什么现在BF16更受欢迎？1．训练稳定性：BF16在反向传播时梯度更稳定，不太需要额外的 loss scaling （损失缩放）等技巧。2硬件友好：BF16可以直接转换到FP32，计算效率更高。3．计算速度快：浮点数乘法和除法的能耗与尾数长度的平方成正比，BF16在运算速度上有天然优势。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

10-03 21:03

中山大学算法工程师

26届校招算法面试题|PPO 与 DPO：大模型偏好对齐的两种核心算法解析

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

10-02 21:41

中山大学算法工程师

Qwen3 Embedding与 BGE 有什么区别？

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

10-01 23:46

中山大学算法工程师

字节LLM算法一面

1.介绍项目，围绕提问2.为什么要进行多头注意力？3.排序模型关注的指标是什么？4.常用的对比学习有哪些方法？怎么构造数据的？5.用bert做分类任务时，输出是怎么处理的？6.在训练模型时，如果遇到loss不稳定，如何去优化？7.讲解Transformer 的结构常用什么训练框架？8.讲解  LoRA 原理。9.常用的不同模态数据在embedding层面对齐的方法有哪些？10.多模态模型怎么训练？11.介绍一下 CLIP 模型。12.用bert做下游任务时，输入有哪些embedding？13.RAG检索召回的片段中，有一些质量差的，如果排除掉？14.注意力计算的计算复杂度是多少？15.C++中，指针和智能指针的区别？16.code：二叉树的层序遍历📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看16道真题和解析

0 点赞评论收藏

分享

10-01 00:10

中山大学算法工程师

阿里nlp算法面经

一面 1．自我介绍2．SFT的 prompt 模板3．大模型 SFT 过程中自己有没有什么总结出来的经验4．应用场景是什么，有什么意义5.如何看待目前大语言模型都是 decoder - only 结构6．encoder - only 和 decoder - only 的对比，纯理解场景哪更优7．描述一下典型的 encoder - only 如 Bert 的结构细节8．多层堆叠时如何避免梯度消失和梯度爆炸9．DPO和 PPO10.代码题：lc75，颜色分类二面1.自我介绍2.介绍大模型实习3.prompt 优化这部分做了什么工作4.prompt 优化这部分还了解哪些方法吗5.如何判断当前使用的 prompt 就是最优的，无法进一步调整了6.SFT的资源描述，卡数，机器数7.SFT过程中如何判断是否过拟合8.如何判断一个模型是否收敛9.判断收敛需要用验证集吗10.测试集为什么一定需要存在，亦或者为什么不直接把验证集测试集合在一起11.主要使用什么语言（ Python )，有没有系统学过 C ++12.pytorch中的计算图13.反问：进来后可能会做的方向📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看21道真题和解析

0 点赞评论收藏

分享

09-29 22:35

中山大学算法工程师

科大讯飞｜自然语言处理算法三面面经

1️⃣一面 1.自我介绍2.问硕士期间方向3.介绍一下大模型的实习4.怎么做的 SFT5. prompt 怎么构建的6.如何筛选出高质量的数据集7.怎么构造的数据集8.你们对数据集中模型的输出有什么要求9.大模型为什么会有重复输出或者不能停止的现象？从哪些方面可以解决？10.能够保证大模型两次输出的结果一样吗？为什么？11.对 RAG 了解吗，为什么要有 RAG12.了解思维链吗13.思维链有什么好处，从模型训练和损失函数等方面说说14.为什么要转大模型方向15.文本分类和情感分类等传统方向有做过相关项目吗16.反问2️⃣二面1.自我介绍2.深挖 NIPS 论文3.实习期间主要做了哪些工作4.batch_ size 度对模型的输出有什么影响5.对传统的 NLP 方向有什么了解6.显卡资源情况7.实验室情况8.了解其他 NLP 任务么9.如何处理内存泄漏10.实习转正情况3️⃣三面1．自我介绍2．保研相关情况，成绩排名3．实验室研究方向4．了解哪些产品5．介绍两段实习6．工作强度怎么看待7．什么样的领导你觉得是比较好的8．自己工作后有没有什么规划📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

09-28 21:11

中山大学算法工程师

快手推荐算法实习面经

1️⃣一面 1.自我介绍，问实习2.介绍SFT3.transformer详细介绍4.介绍解码采样策略5.Flash Attention介绍6.手撕multiheadattention7.字符串解码2️⃣二面1.过项目2.推荐模型了解哪些？3.圆上三个点构成三角形的概率📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看10道真题和解析

0 点赞评论收藏

分享

09-27 21:05

已编辑

中山大学算法工程师

26届校招｜快手大模型应用算法面经

▶️一面 🚤时长约50min1．自我介绍。2．拷打了一下项目和论文。3．为什么多头注意力能提升表达能力？4．为什么要在大模型中使用 RMSNorm ？和 LayerNorm 有什么差异？5．KV Cache 是怎么起作用的？为什么对长上下文推理很关键？6．大模型推理时的加速思路？7．模型微调时遇到过过拟合吗？怎么处理的？8．✨算法题手撕：1️⃣字符串的全排列2️⃣二叉树序列化与反序列化▶️二面🚤时长约40min1．自我介绍，深挖简历。2．深挖项目，针对项目思路不断追问。3．大模型生成内容如何做去重过滤？4．如果词表特别大（10w+ token ), Softmax 加速通常有哪些实现？5．如果要在中文领域做Instruction Tuning ，需要注意哪些数据问题？6．LoRA 和 Prompt Tuning 有何区别，分别适于什么场景？7．反问。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看15道真题和解析

0 点赞评论收藏

分享

09-26 22:36

中山大学算法工程师

26届校招算法岗现状分析

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

09-25 23:06

中山大学算法工程师

阿里多模态大模型算法面经

阿里1面 1.问实习项目。2.项目上线前的评价指标？ RAG 子模块的评价指标？3.八股：过拟合原因？有什么常见解决思路？4. 模型训练的显存估计？由哪几部分组成？除了 Model States 之外还有哪些显存占用？·5.造成多模态大模型缓解的原因？现在常见的缓解思路。6·场景题：识别图片并生成商品描述，会怎么做？7.如果这个产品 MLLM 压根没见过，怎么办？8. 手撕：二维矩阵，里面全是0/1，找联通1联通量的数量。阿里2面1.项目经历2.模型的 loss 函数前乘以10，会对训练造成什么影响？3.deepseek v3的 rope 实现？ deepseek r1的训练过程？4.做过 rag 是吗？介绍 graph rag ?5.bge 和 gte 模型怎么训练的？为什么不能直接用 bert - base 来做余弦相似度召回？6.对比学习的常用 loss 有哪些？ InfoNCE 的超参数？温度系数对训练的影响？7. gradient checkpointing 原理？ gradient _ accumulation 原理？8.多模态大模型的预训练原理？预训练一般分为几个阶段？ ViT 现在一般用什么方法进行预训练？9. 手撕：梯度下降求平方根。

查看17道真题和解析

0 点赞评论收藏

分享

09-24 21:18

中山大学算法工程师

26届校招｜字节多模态大模型面经

1️⃣一面 1.自我介绍和过项目2.知道 deepspeed 和 megatron 吗，分别介绍一下3.Decoder 文本生成有哪几种方法4.Attention 为什么要做scaled ，不做会怎么样，为什么用根号 d _ k5.说一下 Decoder 的因果注意力， QKV 分别来自哪6.深挖多模态大模型论文用的video - llama ，讲一下大模型的结构7.LoRA 初始化怎么做的，用的秩是多少，为什么不选其他的数8. 介绍一下 ALBEF 、 BLIP2️⃣二面1.介绍多模态论文2.论文用了CoT，讲一下论文的CoT是怎么样的3.介绍transformer 架构4.BLIP2的结构是什么，两阶段怎么训练的，有哪些损失5.知道 PEFT 吗，讲一下 LoRA6.LoRA 是什么，有什么好处7.Transformer 怎么做加速训练，训练和推理有什么区别8.一些场景题3️⃣三面1.过项目2.讲一下你用的大模型是什么结构，特征是怎么喂给大模型的3.讲一下multi-head attention，用pytorch手撕一下，要可以实现cross attention的4.大模型训练为什么不用SFT5.知道RLHF吗，讲一下训练流程6.问了几个电商相关的场景题，用大模型解决 prompt 应该怎么设计，怎么处理prompt的输出，怎么过滤错误格式的输出📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

09-23 22:44

中山大学算法工程师

大模型RAG常见面试问题（附答案）

1️⃣RAG 有哪几个步骤？Step1:将文本分割成块;Step2:使用编码模型将这些块嵌入到向量中，将所有这些向量放入索引中;Step3:LLM 创建一个提示，告诉模型根据我们在搜索步骤中找到的上下文来回答用户的查询。2️⃣实际项目中RAG有哪些优化技巧？首先召回源会考虑多路召回，在召回后面增加一个重排序的阶段，提升召回的质量。另外，重排序模型以及生成模型会根据系统问答的指标情况，进一步微调。3️⃣RAG 中为什么会出现幻觉？出现幻觉问题主要分为两大类，一是生成结果与数据源不一致，训练数据和源数据不一致、数据没对齐或者编码器理解能力的缺陷导致；二是用户问题超出了大模型的认知，用户的问题不在语言模型认知范围内导致。4️⃣RAG 一般怎么做效果评估？RAG 做效果评估主要是针对检索和生成两个环节。对检索环节，我们可以采用 MRR 即平均倒排率，前 k 项的 Hits Rate 命中率， NDCG 排序指标等。生成环节首先是量化指标，再评估生成答案的多样性，看看模型是否能够生成多种合理且相关的答案。还需要引入人类评估，考虑资源效率。5️⃣针对幻觉的问题，有什么解决思路？加入一些纠偏规则，比如采用 ReAct 的思想，让大模型对输出的结果进行反思。还有一种思路是集成知识图谱，即不再局限于向量数据库匹配，做召回时不仅考虑文档块，同时还考虑图谱的三元组。将知识图谱( KGs ）集成到 RAG 中，通过利用知识图谱中结构化且相互关联的数据，可以显著增强当前 RAG 系统的推理能力。6️⃣在实际做项目中，经常遇到各种边界的 case ，一般怎么解决？这个需要分情况来看，首先是无效问题：如果对于知识库中没有的问题，我们需要做一个准入的判别，判断是否需要回答。一般是一个二分类模型，或者直接用大模型+ prompt 来做，使模型在这种情况下输出一个预设的兜底话术。第二个是减少幻觉，在推理模块中添加规则和提示工程技术。还有一种是格式错误：模型可能会生成无法解析的答案，这种可以设计一个备份的代理大模型，当解析失败时，可以基于代理大模型直接生成简洁准确的总结。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看6道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务