AI Agent淘天实习一面 攒人品

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.请详细介绍一下Transformer的架构,包括Encoder和Decoder的区别?
2.解释LayerNorm和BatchNorm的区别,为什么Transformer中使用LayerNorm?
3.多头注意力机制的原理是什么?为什么要用多头而不是单头?
4.LLaMA的结构有什么特点?与标准Transformer有什么不同?
5.什么是位置编码?绝对位置编码和相对位置编码的区别是什么?
6.大模型训练中的灾难性遗忘是什么?有哪些解决方法?
7.大模型训练中数据量和数据质量哪个更重要?为什么?
8.DeepFM的原理是什么?FM部分如何降低计算复杂度?
9.你在项目中遇到过拟合的情况吗?是如何解决的?
10.手撕代码:重排链表(LeetCode 143)
全部评论
宝子,你这篇面经很有价值诶,感谢分享!!我私信你啦,你看看~
点赞 回复 分享
发布于 03-12 14:28 北京

相关推荐

给我面没招了,发点面经攒攒人品~1*当大模型产生错误回答或幻觉时,在工程和算法层面有哪些规避手段?2* 描述 Transformer Decoder 的完整解码流程。3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?9* Transformer 中 Attention 的本质是什么?请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?20* 相比于 LangChain,LangGraph 在处理循环任务和状态管理上有哪些优势?21* LangGraph 的状态快照机制是如何实现任务回溯和持久化的?
点赞 评论 收藏
分享
评论
3
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务