2025-12-09 16:10 昆明理工大学算法工程师

关注

美团校招大模型算法一面

1.项目介绍，问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ，那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中，如何防止模型在微调数据集以外的问题上泛化能力下降？如何防止模型收敛到单一类型的高奖励回答
9.代码：25.K个一组翻转链表

全部评论

推荐最新楼层

04-10 20:59

广西大学算法工程师

滴滴大模型算法开发一面

1. 自我介绍2. 多模态里的旋转位置编码是怎么落到二维视觉 token 上的二维视觉 token 不像纯文本那样天然是一维顺序，所以多模态里的 RoPE 通常不会直接照搬文本侧。常见做法是把二维位置拆成行和列两个轴，分别做旋转位置编码，再把两个方向的信息组合到同一个视觉 token 表示里。这样模型在注意力里不仅能感知“前后”，还能保留一部分“上下左右”的相对结构。真正难的不是公式本身，而是视觉 token 经过压缩、重采样、patch merge 之后，原始空间坐标已经不再一一对应。这个时候二维 RoPE 的设计就要和视觉编码器、projector 以及后续 token 压缩方式一起看，否...

AI-Agent面试实战...

点赞评论收藏

分享

03-24 10:25

门头沟学院人工智能

百度文策大模型二面面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的？如果数据质量参差不齐会对 RAG 系统产生哪些影响？3.文档切分策略是如何设计的？chunk size 和 overlap 会如何影响召回质量和生成效果？4.如果用户的问题在知识库中确实存在，但系统经常没有召回正确文档，你会如何排查？5.如果检索到的文档是正确的，但模型最终生成的答案仍然是错误的，你会如何定位问题？6.实际系统中，如果召回结果经常语义相似但事实不相关，你会如何优化检索模块？7.如果一个问题需要跨多个文档的信息才能回答，你的 RAG 系统如何处理这种情况？8.在 RAG 系统中如何判断问题出在检索模块还是生成模块？9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构，这种设计对模型表达能力有什么作用？11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异？12.为什么推理阶段 KV Cache 只缓存 K 和 V，而不缓存 Q？13.RoPE 的核心原理是什么，它在长上下文场景下会遇到什么问题？14.instruction tuning 中多轮对话数据训练时，loss mask 应该如何设计？15.如果 SFT 之后模型在特定任务上能力增强，但通用能力明显下降，你会如何解决？16.LoRA 的低秩分解为什么能够逼近全参数微调的效果？17.如果 LoRA 的 rank 设置不合理，在模型表现上会出现什么现象？18.DPO 训练后模型输出明显变长，在实际系统中你会如何处理？19.如果对齐之后模型变得过于保守，经常拒绝回答，你会如何调整训练策略？20.大模型出现复读机现象通常由哪些因素导致？

点赞评论收藏

分享

04-11 17:38

同济大学算法工程师

小红书大模型后训练一面

📍面试公司：小红书🕐面试时间：2026/04/08 19:00💻面试岗位：NLP/多模态/大模型 实习生❓面试问题：自我介绍；项目经历、实习经历、专业技能除了简历上的，还需要向面试官展示哪些？；学习能力、探索能力、求知的欲望等MCP, SKILL的区别，SKILL为什么能省Token？如何看待Agent，怎么面向业务设计、评估Agent？项目拷打，MMKG-RAG，如何分块，实体和关系的抽取与合并coding，最小方差的子串反问：业务方向：社区生态治理，图文视频的审核和安全评估开发与运营的价值观对齐：基于网信办、用户、公众、运营等各方群体的最大公约数审核标准的自适应与动态变更🙌面试感想...

查看8道真题和解析

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

04-08 10:57

中国科学技术大学苏州研究院运营

腾讯实习二面面经

二、Text2SQL 相关技术问题1. 不同数据表量级下，Text2SQL 的技术选型差异是什么？2. 为何要将数据表每一行数据向量化？使用的 Embedding 模型是什么？3. 行级向量化与表元数据（Metadata）检索的优劣对比，为何不直接用 Metadata？4. Text2SQL 业界常用方案、技术框架与难点你了解哪些？三、RAG 相关技术问题1. Jira Agent Rack 项目要解决什么问题？高频查询内容是什么？2. 为何采用关键词+向量混合检索？各自适用场景是什么？3. 结构化数据用固定分块的原因？什么场景不适合固定分块？4. 长文档 RAG 如何分块？标点分块如何解决语义割裂问题？5. RAG 中为何要加**重排（Rerank）**环节？你的项目是否使用？6. 加重排后效果变差的原因是什么？7. 是否做过Query 改写？解决什么问题？如何实现？8. RAG 与小模型微调的适用场景分别是什么？四、Agent 相关技术问题1. 多 Agent 系统采用什么架构？任务如何编排？2. OpenCloud、Perplexity 等 Agent 系统的核心是什么？3. Agent 的短期/长期记忆如何设计、区分与协作？4. Agent 系统相比直接用大模型的优势是什么？5. 用户如何自定义 Agent 与 MCP？流程是什么？整体上就是自己给自己挖坑，很多细节答不上来，面试了差不多50min，面试完感觉被抽干了，像是做了一次小丑，好不容易有次二面，被自己浪费了

查看17道真题和解析

点赞评论收藏

分享

评论

点赞

4

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI让海力士市值突破9000亿美元 #

5134次浏览 50人参与

# 如何排解工作中的焦虑 #

339340次浏览 2874人参与

# 在爱玛，骑向未来 #

47797次浏览 458人参与

# 我的求职总结 #

466004次浏览 6624人参与

# 牛油的搬砖plog #

203590次浏览 1311人参与

# 机械笔面试考察这些知识点 #

20401次浏览 156人参与

# 这些公司卡简历很严格 #

105951次浏览 451人参与

# 国企vs私企，怎么选？ #

52064次浏览 232人参与

# 职场新人体验 #

194075次浏览 1266人参与

# 哪些公司对双非友好 #

236620次浏览 1261人参与

# 机械人与华为的爱恨情仇 #

160939次浏览 1060人参与

# 求职低谷期你是怎么度过的 #

41893次浏览 370人参与

# 百度工作体验 #

337202次浏览 2294人参与

# 什么专业适合考公 #

70417次浏览 383人参与

# 硬件人求职现状 #

538388次浏览 4837人参与

# 打工人的精神状态 #

155991次浏览 1579人参与

# 面试尴尬现场 #

228851次浏览 873人参与

# 海康威视求职进展汇总 #

612630次浏览 3774人参与

# 秋招OC许愿 #

438416次浏览 2711人参与

# 软开人，秋招你打算投哪些公司呢 #

204091次浏览 1584人参与

# 游戏求职进展汇总 #

792938次浏览 6512人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务