阿里大模型算法校招面经 攒人品版

攒人品中,祝大家都能拿到满意的Offer!
1.Transformer中Attention的本质是什么?你能从数学角度简要解释一下吗?
2.在Agent多轮对话任务中,你觉得Attention的局限性体现在哪些方面?
3.简要介绍一下SFT的核心流程,以及数据集的构建策略,SFT之后常见的Post-Training还有哪些?它们之间的目的有何区别?
4.什么是RAG,它是怎么提升生成质量的?与传统检索+模型生成的流程有何不同?如何评估一个RAG系统是否work的?
5.PPO和DPO在大模型对齐中的主要区别是什么?DPO训练通常有哪些注意事项?用过GRPO么?
6.项目里的Modular Agent,你能讲讲它是如何实现多步规划的吗?
7.项目提到了多个工具调用链路,调度策略是如何设计的?是否有异常fallback策略?
8.Agent评估体系包括哪些维度?如何衡量planning能力 vs hallucination rate?
9.项目里微调Qwen,选择的训练阶段和Loss函数是如何决定的?
10.Prompt自动推荐模块用了哪些优化策略?有没有尝试过Prompt压缩或embedding表示的方式?
11.场景题:假如一个Agent 推理链路包含3个工具+高频请求,系统整体延迟较高,你会如何优化?
12.代码:岛屿数量
全部评论

相关推荐

杂七杂八的个人感受和思考。写于2026 3月20主题是公司大神多➕论装逼字节的人才浓度在国内是数一数二的,人又是环境的产物,在一堆优秀的人旁边做事,就是会有一种把你往前推,不行也得行,装也得装行的感觉。最近在公司内部看了很多文章,了解了那些真正有思考有想法的人是怎么看待事情的,是怎么做事的。其实感触挺大的,因为我已经很久很久没有静下心来看书思考还有复盘总结过去的一些经验了。似乎有点落后了,落后于ai时代,落后于真正优秀的人群了,人生是一场长跑,并非是抢跑,保持思考,继续向前。在过去几年,我算得上比较努力,努力的原因有很多种,其中有一种比较奇葩,就是我想装逼,就是想着诶毕业后进腾讯,去那个滨海大厦拍照发朋友圈,可装逼了。也就是特别想证明自己,特别想告诉别人我是很厉害的,后面我也确实是这样做的。去美团字节,我都喜欢去装逼,发抖音发小红书发牛客,一边写着经验贴一边装逼,刚开始确实特别爽,爽到爆炸(没装过的人有机会可以装一下试试)现在想来,其实确实没啥装的必要,仔细审视自己,为什么就那么想装逼呢?虚荣心咋这么强呢?分析了过往成长的一些经历,得到了答案最初期我的家庭教育就是偏打压型,一直在家里都是被说不行,这不行那不行,后面6年都是进的全市最好的中学,每次考试完都会公开成绩,当众鞭尸,我几乎就是吊车尾,而且当时是分数越少,下次就会分配越高层的考场,我很多次都在最高的那一两层考试(象牙塔也是看成绩分阶级哈哈哈),其次就是喜欢的女生,每次我都是苦了吧唧当舔狗的,以为自己很深情有机会,最后别人都选了更强的男生。无论是在家里被打压,在学校被分最低阶级,在两性关系里竞争失败,无疑一次次都在证明着自己是个不行的人,而好巧不巧,我是个自尊心很强的人,所以一直都憋着一口气,想要证明他妈的谁敢说我不行。所以最后还是那句话,人越缺什么,越想证明什么。以前的被人小瞧,回过头来就会总想着取得成绩以后回来打他们的脸。不过现在看来已经是云淡风轻了,这是小屁孩短期的一种虚荣心变现,长久下去,得到的不会是满足,而是空虚。当时在牛客抖音这些平台,得有几百上千个人说我牛逼,说我是他们的榜样,我本以为我会很爽,可实际上我没啥感觉,我对这种夸奖已经脱敏了,甚至我还有点讨厌别人老拿大厂说事,不能正常说话老是叫什么xx爷......从那时候我就发现自己长大了一些,不再过分追求这种所谓的虚荣心。没有虚荣心带来的爽感之后,感觉生活有点空虚了。后面阴差阳错发现让我更爽,更愉悦的事情就是尽可能地输出、与他人做链接、尽可能地帮助别人,这样就可以在自我实现这个顶层需求上实现满足,从而带来高级的愉悦感。多输出一些,就会遇到新朋友,这也是一件开心的事情,不是吗?我后面在社交媒体发布的一些内容,都是按照利他思维在做,很多人能从我的文字中找到共鸣,得到鼓励,并且私聊跟我表示感谢,这种幸福感和简单装逼带来的虚荣心满足很不一样,简单一点就是更爽了,同时也认识了一些新朋友,也得到了一些前辈的制造,简直百利而无一害总结一下,装逼确实爽,但只是较浅层满足虚荣心的爽,久而久之会觉得空虚,并且装逼容易惹人讨厌,影响人际关系,但是输出价值,链接他人,帮助他人就不一样了,这种幸福感是会更强烈也会更持续的......
点赞 评论 收藏
分享
给我面没招了,发点面经攒攒人品~1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?9* Transformer 中 Attention 的本质是什么?请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
点赞 评论 收藏
分享
评论
1
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务