首页 / 面试官最爱问的 AI 问题是......
#

面试官最爱问的 AI 问题是......

#
98307次浏览 2010人互动
RAG、幻觉、MCP......从基础到深度,从技术到场景,面试官最爱问的 AI 问题是>>
此刻你想和大家分享什么
热门 最新
近期开发AI面经
1. 为什么做Agent项目?2. 了解过市面上有哪些智能体agent吗3. 讲下Agent项目4. Agent项目开发的框架5. 介绍一些AI大模型6. RAG系统流程7. MCP和Function Calling8. 如何写好的prompt9. 多轮对话的实现方案10. Agent项目背景11. LLM产生幻觉的原因及解决方案12. MCP协议的核心内容13. 推理模式的差异化设计14. RAG检索优化策略15. 特定推理模型不支持MCP的技术原因16. Agent推理模式17. 跨模块错误追踪的Agent知识库构建方案18. 多Agent执行策略的智能选择和切换机制设计19. 简历关键词提取的技术实现20. RAG评估方案21. SSE的局限性22. 举例复杂任务下执行流程23. MCP通信方式24. 项目中AI贡献的代码占比25. Prompt工程的实践经验26. 基于代码构建知识库的Agent设计27. A2A协议28. 长文本生成的技术方案29. Agent skills30. 演示Agent项目实现细节31. 了解其他的Agent范式吗32. 模型预热机制33. NL2SQL场景下的SQL安全防护34. 复杂任务执行准确率提升的评估方法35. AI辅助IDE开发工具36. RAG动态知识更新37. MCP和skill区别38. 推理模式的选择机制39. 企业内部知识库RAG的动态持续更新方案40. Prompt设计示例41. A2A与MCP区别42. 多阶段召回策略优化43. AI辅助开发的实践经验面试官主要最爱问的就是讲一下你的 Agent 项目整体架构 & 执行流程RAG 全流程 + 检索优化怎么做的Tool 调用 / Function Calling / MCP 机制原理多轮对话、上下文记忆、幻觉怎么解决
点赞 评论 收藏
分享
面试官最爱问的RAG 项目落地怎么答?
一、先破题:面试官到底想听什么?别上来就念定义,先抓核心:他想知道你懂不懂 RAG 的本质、会不会落地、他想看到你的深度思考。一句话开场就能拉好感:“RAG 本质就是给大模型‘外挂知识库’,让它先查资料再回答,既不用重新训模型,又能减少幻觉,特别适合企业私有数据场景。”二、核心回答框架:3 步讲 RAG 全流程1️⃣ 先讲原理:为什么要用 RAG?传统大模型的知识全靠预训练,新数据、企业内部数据它根本没见过,一问就容易瞎编。RAG 的思路很朴素:生成答案前先去外部知识库搜一遍,把相关资料塞给模型当参考,让它 “照着资料说”。这样既避免了微调的高成本,又能保证答案基于真实数据,还能随时更新知识库,很灵活。2️⃣ 再讲落地:项目里怎么搭 RAG 链路?别只说 “召回 - 过滤 - 生成”,要讲具体做了什么、用了什么工具,显得你真干过:第一步:搭知识库(离线准备)先把企业文档 / 业务数据切分:按语义段落拆,控制每段 token 数,太粗太细都影响检索效果用 Embedding 模型(比如 BGE、text-embedding-ada-002)把文本转成向量存到向量库(Milvus/FAISS/Pinecone 都行),方便后面做相似度搜索举个例子:我们做企业知识库时,会把长文档按章节 + 段落拆分,每段控制在 300token 左右,既保证信息完整,又不会太冗余。第二步:用户提问时的检索阶段先把用户问题也转成向量,去向量库做相似度检索,捞出 Top-K 相关文档关键:加个 rerank 模型(比如 CrossEncoder)做二次排序,把最相关的片段往前排,避免 “看似相关实则没用” 的文档干扰还可以加 query rewriting 优化提问,比如把口语化问题转成更适合检索的句式,提升召回准确率第三步:生成答案把检索到的文档片段 + 用户问题,拼进 Prompt 里,给模型明确指令:“请仅基于以下参考资料回答问题,不要编造内容,如果资料里没有答案就说‘未找到相关信息’。”喂给大模型生成答案,这样输出就完全基于检索到的真实数据,不会瞎编。3️⃣ 最后补深度:RAG 的关键与坑讲完流程,补几句踩坑经验,瞬间拉开差距:核心难点:文档切分、检索质量、Prompt 设计切分太粗:信息太杂,检索不准;太细:上下文断裂,模型看不懂检索差:哪怕模型再强,给错资料也会生成垃圾答案,所以 rerank 和 query rewriting 特别重要Prompt 要 “严”:必须约束模型只能用参考资料,不然它还是会忍不住瞎编局限性也要提:依赖 Embedding 质量,选不对模型检索直接拉胯长上下文会推高成本,太多参考资料反而让模型混乱实时性问题:知识库更新后要重新生成向量,不能秒级同步三、面试加分小技巧提架构:主动说 “我们用的是召回 - 过滤 - 生成三段式架构”,显得你体系化提优化:聊 rerank、query rewriting、多轮检索这些进阶手段,证明你不是只会基础版提场景:结合具体项目说,比如 “在企业客服知识库 / 内部文档问答里用 RAG”,比空泛讲理论更有说服力
查看11道真题和解析
点赞 评论 收藏
分享
RAG、RAG 类型、Agent 底层原理、多 Agent。
一、RAG 是什么?(面试必问)RAG = 检索增强生成(Retrieval-Augmented Generation)一句话:先从外部知识库检索相关信息,再把信息喂给大模型生成答案。作用:• 解决大模型不知道新知识、幻觉的问题• 不用重新训练模型,成本低、安全可控RAG 核心流程(背这 4 步)1. 文档切分(Chunk)2. 向量化(Embedding)3. 存入向量库4. 用户提问 → 检索相关片段 → 给 LLM 生成答案RAG 常见类型(面试高频)1. 朴素 RAG最简单:切分→向量→检索→生成。适合简单问答。2. 高级 RAG(优化版)◦ 召回前:查询优化、重写◦ 召回中:多路召回、混合检索(关键词+向量)◦ 召回后:重排序(Rerank)3. RAG + 知识库管理带文档更新、去重、过滤、元数据过滤。4. 模块化 RAG可插拔:不同场景用不同检索策略。二、Agent 底层原理(面试官最爱深挖)一句话:Agent = LLM 做大脑 + 工具调用 + 记忆 + 反思 + 规划核心 5 组件(背这个)1. 大脑(LLM)负责思考、决策、理解任务。2. 记忆(Memory)◦ 短期记忆:上下文◦ 长期记忆:向量库/数据库3. 工具(Tools)搜索、代码解释器、API、函数调用(FC)。4. 规划(Planning)拆解任务、多步推理、自主决定怎么做。5. 反思(Reflection)检查结果对不对,错了就修正。标准执行流程(面试直接说)1. 理解用户目标2. 思考:我要做什么?需要哪些工具?3. 调用工具获取信息4. 继续推理,直到完成目标5. 输出最终结果三、多 Agent 是什么?多 Agent = 多个智能体分工协作完成复杂任务。特点• 每个 Agent 有专属角色• 互相通信、分工、协作• 能处理复杂、多步骤、跨领域任务常见架构1. 集中式有一个“主管 Agent”分配任务。2. 分布式无中心,Agent 之间互相沟通。3. 分层式上层决策,下层执行。典型应用• 代码开发团队(产品、前端、后端、测试)• 内容创作团队• 企业自动化流程四、面试高频三连问(标准答案)1. RAG 和 Fine-tuning 区别?◦ RAG:外挂知识库,不改模型,安全、实时、成本低。◦ 微调:改模型权重,适合固定风格/专业领域,成本高。2. Agent 和普通 LLM 区别?◦ LLM:你问啥它答啥,被动。◦ Agent:有目标、会思考、会用工具、自主完成任务。3. Agent 和工作流区别?◦ 工作流:固定步骤,按流程跑。◦ Agent:动态思考,自主决策下一步。如果你要,我可以直接帮你整理成:「AI 前端面试 10 分钟速背版」你拿去背,面试基本稳过。
查看10道真题和解析
点赞 评论 收藏
分享
面试官喜欢问的ai问题(后端向)
面试官喜欢问用过什么ai,这时候就不能局限于ChatGPT、DeepSeek、豆包这种网页版对话工具,这些只是基本操作。面试官更想知道的是,你有没有用过能直接赋能开发提效的 AI 工具(比如 IDE 集成类、代码专属 AI 工具),以及你如何通过 Agent 思维、精准提示词设计,把 AI 变成真正的生产力助手。比如,只说 “用过 ChatGPT 写代码”,远不如说 “用 Cursor 的实时代码补全功能重构过 Spring Boot 接口的冗余逻辑”“靠 Claude Code 分析 JVM 堆转储日志,定位了并发场景下的内存泄漏问题”“基于 LangChain 搭过简易的本地知识库 Agent,用来自动检索项目历史文档,解决跨模块接口调用的疑难问题” 来得有说服力。除此之外,“开发中遇到过 AI 幻觉吗?怎么解决的?” 也是高频追问。毕竟真实工作里,AI 生成的代码或方案并非万能,甚至会出现 “一本正经输出错误答案” 的情况。比如你让 AI 写一个基于 Redis 的分布式锁,它可能会漏掉 finally 块的解锁逻辑,导致死锁;或者让它优化 MySQL 慢查询,它给出的索引方案反而会让查询效率更低;更常见的是,遇到一些冷门框架的问题,AI 会拼接看似合理的解决方案,实则完全不适用。这些场景的核心矛盾,在于 AI 是基于海量语料的概率性输出,而非真正理解业务逻辑和技术原理。这时候,能讲清 “如何识别幻觉、如何解决幻觉”,远比单纯说 “用过 AI” 更能体现你的能力。比如可以说:“我会先交叉验证 AI 给出的方案 —— 对照官方文档、查看源码注释,或者搭建最小测试用例跑通验证;如果 AI 陷入错误循环,我会拆解问题,用更精准的提示词限定范围,比如明确‘基于 Redis 6.0 版本,用 SETNX + EX 命令实现分布式锁,必须包含超时兜底和解锁校验’;实在解决不了的,会放弃直接生成,转而让 AI 提供思路参考,再结合自己的技术积累完成落地。”说到底,面试官问 AI 相关问题,不是考你 “知道多少工具”,而是考你 “有没有把工具用出深度”—— 是否能借助 AI 提升开发效率,是否能分辨 AI 输出的对错,是否具备 “工具辅助 + 独立思考” 的复合能力。这才是校招和社招中,拉开候选人差距的关键。
在职牛马didi:总结得很到位,后端面试现在确实都在问AI。你提到的几个点很准:1.说"用过ChatGPT"vs说"用Cursor重构过SpringBoot接口",差距巨大2.AI幻觉识别和解决能力比单纯会用工具更重要3.交叉验证+精准提示词是核心技能我们团队招AI应用研发实习,工程能力+AI认知是重点。暑期实习还有HC,感兴趣可以看看:https://www.nowcoder.com/jobs/detail/440929?jobId=440929
点赞 评论 收藏
分享
快手Agent开发面筋
本人技术栈主要是Python+Go,之前有两段后端实习经历一面一开始面试官就围着我之前的实习项目问,问得还挺细的:当时做项目的时候,为什么要引入父子索引?还有BM25,引入的原因是什么,比例是怎么设置的,整个具体流程是怎样的,有没有做rerank操作?如果做了rerank, rerank之后返回几个块?有没有做过一些验证来确保效果?rerank之后的topk截断是怎么实现的?为什么选这个k值,有没有考虑过其他方案?让我讲一下上下文工程,还有记忆功能是怎么实现的。除了AI相关的项目,还问了我之前做的后端实习项目,都是一些项目里的细节问题。分布式令牌桶限流、漏桶限流,还有滑动窗口算法限流,这三个都让我讲一下。尤其问了滑动窗口的数据结构会包含哪些字段,滑动窗口对比令牌桶有什么缺点,还有用Redis的什么数据结构能实现滑动窗口。又绕回我自己做的项目,让我讲一下LRU的原理和实现。布隆过滤器的原理、应用场景,也让我详细说一下。MySQL索引失效的情况,这块我八股好久没看了,只想起来两个,被面试官追问了好久,有点没答好。面试官还补问了一句,like查询会不会导致索引失效。MySQL的事务隔离级别,还有一致性相关的内容,让我讲清楚。MVCC这块问得特别细,反复追问,还举了具体场景,问这种情况下会创建几个readview,我当时琢磨了半天,尽量把自己知道的都讲了。最后还问了MySQL的锁相关知识,行锁、表锁这些都涉及到了。手撕代码环节,我跟面试官坦诚说,最近一直在实习,好久没刷过题了,然后面试官就出了一道反转链表,不算特别难,慢慢理清楚思路就做出来了。二面跟一面不一样,二面全程没涉及后端相关的问题,全是AI agent和RAG相关的,而且大部分都围绕我之前做的RAG项目展开,问得特别深入。首先问我,做RAG项目的时候,是怎么评测效果的?有哪些评测维度,具体用到了哪些指标?然后问项目里的数据集包含什么内容,数据来源、数据格式这些都问到了。如果让我对RAG的相关度和回答效果做优化,我有什么思路?有没有更体系化的优化方案,而不是零散的调整。面试官还举了个具体场景,比如有一千条数据,需要做求和处理,让我说说这种数据处理场景,我会怎么设计实现。RAG的性能怎么提升,有没有实际的优化思路,不管是工程层面还是算法层面。我项目里的上下文是怎么处理的,有没有什么优化的方向,比如上下文过长、冗余这些问题怎么解决。agent的长记忆和短记忆之间,怎么做到协同工作的,两者的衔接逻辑是什么。最后问我,有什么思路能让自己做的agent更智能?这个问题我感觉太宽泛了,当时没太get到面试官具体想了解什么,就主要围绕我工程开发中遇到的实际问题,讲了一些针对性的优化思路。手撕代码环节,出的是全排列,这个之前刷过类似的,思路比较清晰,顺利做出来了。感觉面试官比较爱问的AI问题就是RAG 的全链路优化、Agent、减少幻觉
查看23道真题和解析
点赞 评论 收藏
分享
03-18 10:30
已编辑
阿里巴巴_淘宝_前端
整理了最近一些经典 Agent 相关的面试题,供大家参考
// 淘天 27 届暑期实习生正在招聘 各方向都有海量 HC 欢迎看我置顶帖子投递最近在帮部门看简历,发现不少同学在做项目时都挂了 Agent 的标签。但在面试过程中,很多同学对这个方向的理解还停留在调用API的层面,稍微深挖一下架构设计就接不住了。整理了一个最近面试中比较高频的Agent技术问题,大家可以先试着回答一下,看看基础扎不扎实:---一面 | AI Agent 架构设计面试题:请设计一个支持多工具调用的 ReAct Agent,说明其核心循环、工具调度策略、以及如何处理多步推理中的错误恢复。---参考答案一、ReAct 核心循环ReAct 的本质是一个 思考 → 行动 → 观察的迭代循环。Agent 在每一步先进行推理(Thought),分析当前状态和已有信息,决定下一步该做什么;然后执行行动(Action),选择一个工具并传入参数;最后获取观察结果(Observation),把工具返回的信息追加到上下文中,进入下一轮循环。直到 Agent 判断已经获得足够信息,输出最终答案。与纯 Chain-of-Thought 的核心区别:CoT 是闭卷考试,Agent 是开卷——每一步推理都可以与外部世界交互,用真实数据修正推理方向,而不是纯靠模型内部知识"硬猜"。二、工具注册与调度工具如何让 LLM "认识":每个工具以结构化方式注册,包含名称、功能描述、参数定义(类型、是否必填、含义说明)。这些信息会被注入到系统提示词中,LLM 通过理解这些描述来决定何时调用哪个工具、传什么参数。工具描述的质量直接决定了 Agent 的调度准确率——描述模糊,模型就会选错工具。三种调度策略:- 串行调用:每次只调一个工具,等到结果后再决定下一步。适合步骤之间有依赖关系的场景,比如"先查订单号,再根据订单号查物流"。- 并行调用:一次推理中输出多个工具调用,并发执行。适合多个独立子任务,比如"同时查北京天气和上海天气"。- 规划-执行分离:先让 LLM 生成一个完整的多步计划,再逐步执行每一步。适合复杂任务需要全局视角的场景。生产环境通常是混合策略:Agent 动态判断当前步骤是否有可并行的操作,有则并行,否则串行。三、错误恢复机制工具执行失败:核心原则是**不要在工程侧硬编码恢复逻辑**。工具失败后,应该把错误信息作为 Observation 原样返回给 LLM,让模型自己决定下一步——是重试、换个工具、还是换一种思路绕过。这恰恰是 Agent 相比传统程序的核心优势:用 LLM 的推理能力应对非预期情况。当然,对于网络超时这类瞬时错误,工程侧可以做有限次数的自动重试,但逻辑层面的恢复应该交给模型。推理陷入死循环:Agent 可能反复执行相同的操作却期待不同结果。需要一个循环检测机制:对比最近几步和之前几步的行为模式,如果工具调用和参数完全重复,就往上下文中注入一条引导信息,提示模型"你在重复相同操作,请尝试不同方法"。同时设置全局最大迭代次数作为硬性兜底。上下文窗口溢出:这是多步推理中最现实的工程问题。每一轮循环都会往上下文里追加 thought + action + observation,几轮下来就可能撑爆窗口。常用解法:对早期步骤做摘要压缩只保留关键结论,对过长的工具返回结果先截断或提取摘要再存入历史,以及每隔几步让 LLM 自己总结"到目前为止的关键发现"。四、生产级可观测性上线不是终点。一个可靠的 Agent 系统需要:完整的 Trace 记录(每一步的推理、行动、观察),Token 消耗监控(防止成本失控),任务维度的成功率和平均步数统计,以及超过最大步数后降级到人工处理的兜底机制。---追问 Q&AQ1:多 Agent 协作时,如何设计 Agent 之间的通信和协调机制?A:主流有两种模式。Supervisor 模式(中心化):一个"主管 Agent"负责接收任务、拆解子任务、分配给专项 Agent,然后汇总各 Agent 的结果做最终决策。好处是流程可控、容易调试,缺点是主管 Agent 成为单点瓶颈,它的推理能力决定了整个系统的上限。去中心化消息传递:多个 Agent 通过共享的消息总线或黑板系统通信,每个 Agent 监听自己关心的消息类型,处理后将结果发回总线。好处是扩展性强、不存在单点瓶颈,缺点是调试困难、消息顺序和冲突处理复杂。实际工程中更常见的是分层混合架构:顶层用 Supervisor 做任务编排,底层的子任务内部允许 Agent 之间点对点通信。这样兼顾了全局可控性和局部灵活性。一个经常被忽略的关键设计点是共享上下文管理:多个 Agent 看到的"世界状态"如何保持一致?通常会设计一个共享的 State 对象,所有 Agent 只能通过定义好的接口读写状态,避免并发冲突。---Q2:Agent 的短期记忆和长期记忆应该如何设计和配合?A:本质上对应两种不同的信息需求。短期记忆就是当前对话的上下文窗口,存放的是本次任务的推理过程和中间结果。它的特点是时效性强但容量有限。核心挑战前面说过——窗口溢出管理。长期记忆是跨会话持久化的知识,通常用向量数据库实现。每次对话结束后,把值得记住的信息(用户偏好、历史决策、领域知识)向量化后存入。下次对话开始时,根据当前问题做相似性检索,把相关的长期记忆注入到系统提示词中。两者的配合策略:Agent 在每一轮推理前,先从长期记忆中检索与当前任务相关的历史经验("上次处理类似问题时用了什么方法"),注入到上下文中作为参考。短期记忆负责当前任务的连贯推理,长期记忆负责跨任务的知识积累。一个常见的坑是记忆污染:把错误的推理结论写入了长期记忆,导致后续任务反复犯同样的错。所以写入长期记忆前需要有质量校验机制,比如只有任务成功完成时才写入,或者由另一个 LLM 评估该记忆是否值得保留。---Q3:如何防止 Prompt Injection 导致 Agent 执行恶意工具调用?A:这是 Agent 安全中最核心的问题。攻击面在于:Agent 处理的用户输入或工具返回的外部数据中,可能嵌入了恶意指令,诱导 LLM 执行非预期操作。防御需要多层:第一层:输入隔离。 用户输入和系统指令必须在提示词中明确分隔,使用结构化标记区分"这是系统指令"和"这是用户数据"。避免用户输入被模型当作指令执行。第二层:工具权限分级。不同风险等级的工具设置不同的调用条件。只读查询类工具可以自由调用,但涉及写入、删除、发送等不可逆操作的工具,需要额外的确认机制——比如二次 LLM 审核(用另一个独立的模型判断"这次调用是否合理"),或者直接要求人工确认。第三层:输出过滤。工具返回的外部数据在进入 Agent 上下文前,先做清洗,去除可能被解释为指令的内容。第四层:行为监控。对 Agent 的工具调用模式做异常检测。比如一个处理客服问题的 Agent 突然开始调用文件系统工具,这明显异常,应该立即阻断并告警。没有银弹,必须纵深防御。---Q4:如何评估一个 Agent 系统的效果?和评估单次 LLM 调用有什么区别?A:区别很大。单次 LLM 调用的评估是静态的——给输入、看输出、算指标。但 Agent 是一个多步动态过程,同一个最终结果可能有完全不同的路径质量。Agent 评估需要看三个维度:结果维度:任务是否完成、最终答案是否正确。这和评估普通 LLM 类似。过程维度:用了几步完成(效率)、有没有冗余操作(比如查了不需要的信息)、有没有走弯路后自我纠正(鲁棒性)。两个 Agent 都答对了,但一个用了 3 步另一个用了 15 步,质量完全不同。成本维度:总 Token 消耗、工具调用次数、端到端延迟。在生产环境中,这直接决定了系统是否可用。评估方式上,通常会构建一个 benchmark 数据集,包含不同难度的任务和标准答案。让 Agent 跑一遍,同时记录完整 trace。然后用自动化指标(完成率、平均步数、Token 消耗)加人工评审(推理路径是否合理)综合打分。
查看5道真题和解析
点赞 评论 收藏
分享
前端面试 · 5个高频AI问题 + 前端向深度回答
1. AI 大模型会取代前端吗?前端核心价值是什么?不会取代,但会重构工作方式。AI 擅长生成页面、组件、样式和简单逻辑,但交互体验、业务理解、性能优化、工程架构、跨端兼容、安全与用户体验把控依然是前端核心。前端未来是“AI 协作工程师”,用 AI 提效,自己专注复杂决策与体验创新。2. 前端如何接入大模型?常用方案有哪些?主流有三种:• 直接调用后端接口,前端只做流式渲染与对话交互;• 浏览器端使用 WebLLM、Transformers.js 等跑轻量化模型,实现本地推理;• 结合 AI 组件库(如 AI 搜索、智能提示)封装通用交互。关键点:前端负责流式 SSE/WebSocket 展示、上下文管理、加载状态、异常兜底,保证交互流畅。3. 你在项目中怎么用 AI 提升前端开发效率?• 用 AI 生成基础页面、表单、表格、动画代码;• 辅助写正则、工具函数、Hooks、接口类型定义;• 做代码审查、Bug 定位、性能优化建议;• 自动生成注释、文档、单元测试;• 快速复现与修复兼容性问题。核心是把重复体力活交给 AI,复杂逻辑与架构自己把控。4. 前端怎么实现 AI 流式对话(Chat 打字机效果)?使用 SSE(Server-Sent Events) 或 Fetch 流式读取:• 后端以流形式逐块返回内容;• 前端通过 ReadableStream 接收 chunk,逐字渲染;• 配合防抖、中断、重发、异常重试提升体验;• 结合虚拟列表解决长对话性能问题。这是现在 AI 产品最典型的前端能力考点。5. AI 给前端带来了哪些新的产品形态?• 智能表单:自动填充、语义化输入、自然语言生成查询;• AI 设计稿转代码、Figma 一键生成前端页面;• 智能客服/对话助手、语音交互+可视化界面;• 低代码/无代码平台的 AI 生成模块;• 个性化 UI:根据用户行为动态调整主题、布局、内容。前端不再只是“切页面”,而是AI 能力的交互出口。
点赞 评论 收藏
分享
字节一面
AI大模型算法,一环扣一环的拷打Transformer 基础详细介绍 Transformer 架构(Encoder-Decoder 结构、位置编码、FFN 等)Decoder 的因果注意力中,Q、K、V 分别来自哪里?→ Q 来自当前 Decoder 输入(已生成的 token 序列),K 和 V 也来自同一序列(需 mask 未来信息)Attention 为什么要 scaled?不做会怎样?为什么是√dₖ?→ 点积随 dₖ增大会让 softmax 进入饱和区,导致梯度消失;除以√dₖ可使方差稳定在 1(数学推导参考 Vaswani 论文)Transformer 如何加速推理?KV Cache 是什么?训练 vs 推理的并行性差异?→ 训练时所有 token 并行计算;推理时自回归,KV Cache 可缓存历史 K/V,避免重复计算,大幅提速多模态论文深挖(以 Video-LLaMA 为例)讲解 Video-LLaMA 的整体结构→ 视频编码器(如 ViT + Temporal Aggregator)→ 投影层(对齐文本空间)→ LLaMA 语言模型论文中 CoT(Chain-of-Thought)的具体设计?→ 在 prompt 中加入推理步骤示例(如 “视频中先看到人挥手,然后狗跑过来…”),引导模型分步作答微调 & 分布式训练微调用了 LoRA,介绍其原理→ 将权重更新 ΔW 分解为低秩矩阵 A×B,冻结原模型,只训练 A、B,大幅减少可训练参数LoRA 初始化怎么做?秩(rank)设为多少?为什么选这个值?→ A ~ N (0, σ²),B 初始化为 0;常用 rank=8 或 16,在效果和参数量间取得平衡(实验验证)知道 DeepSpeed 和 Megatron 吗?分别说说→ DeepSpeed(微软):主打 ZeRO 显存优化;Megatron-LM(NVIDIA):张量并行 + 流水线并行论文用 DeepSpeed,三个 Stage(ZeRO-1/2/3)分别是什么?→ Stage1:优化器状态分片;Stage2:+ 梯度分片;Stage3:+ 模型参数分片(通信换显存)二面下一篇再写吧,力竭了
查看10道真题和解析
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务