03-08 22:43 山东大学嵌入式软件工程师发布于山东

关注

面试官问“长上下文最终会杀死RAG吗？”怎么回答

我还记得24年研究RAG的时候，压根没有想到，后来技术的发展，大模型的上下文能长成现在这个样，而且随着技术进一步发展，其实Memory的加入确实能让Agent的上下文能力变得很强，但真当面试时如果被问到这个问题，你得清楚，其实是一个非常典型的面试陷阱。（我准备的答案在文末）

为什么这么说？

如果你跟风回答“会”，面试官很容易判断你缺乏工程落地经验，也没有真正考虑过成本问题。但如果你回答“不会”，面试官往往又会继续追问：

既然不会，那现在模型拼命把上下文窗口做到几百万Token，难道方向错了吗？RAG还有存在的必要吗？

你会觉得，这道题似乎怎么回答都不对：说“会”，显得外行；说“不会”，又像是在否定技术进步。

于是很多人就开始怀疑：既然模型已经可以读超长上下文，为什么还要费劲做RAG？直接把所有文档丢给模型，不就解决问题了吗？

事情真的这么简单吗？

一、未来主流架构：混合式RAG

这张图其实可以理解为一个漏斗结构：

从左到右，数据量越来越少，但信息质量越来越高。

整个流程大致分为三层：

检索增强（Retrieval）
上下文构建（Context Building）
长上下文模型推理（Long Context Reasoning）

二、第一层：RAG解决的是“广度”

先思考一个问题：

如果企业内部有1TB数据，甚至需要搜索整个互联网的信息，你能把这些内容全部塞进模型上下文吗？

显然不可能。这就像去图书馆查资料：

现在的模型确实“记忆力”很强，拥有长上下文能力，可以一次读完一整排书架的书。但图书馆里有几百万本书，你不可能把整个图书馆都搬回家。

这正是RAG的作用：

它的核心任务，是从海量数据中先筛选出最相关的那一小部分。

比如：

从百万篇文档中
找出最相关的 几十篇或几百篇

无论模型窗口多大，外部数据规模永远比它更大。所以RAG解决的是“搜索广度”的问题。

三、第二层：上下文构建

假设我们已经检索出了50篇相关文档。接下来问题来了：我们是直接把这 50 篇文档一股脑全部丢给模型吗？

如果其中包含广告内容、过期数据、错误信息，那模型很可能会被噪声信息误导。

因此中间这一步非常关键：上下文构建（Context Building）。

通常会做几件事：

重排序（Re-ranking）
内容清洗
摘要压缩
信息拼接

可以把它想象成你把书借回家后，会：

把重点章节折个角
标记重要段落
把无关内容过滤掉

最终整理出一份信息密度极高的材料。

在工程实践中，最后送入模型的内容通常是：5万到10万Token的高质量上下文。

四、第三层：长上下文模型

最后才轮到真正的主角，长上下文模型。

在早期RAG中，由于上下文窗口很小，我们只能给模型提供几段零散文本，模型很容易断章取义。

但现在有了长上下文能力，情况完全不同：

我们可以把整理好的大量高质量资料一次性输入模型。

此时模型真正发挥的是：

深度理解与推理能力

比如：

跨文档关联信息
理解复杂逻辑关系
做长链条推理

所以整个逻辑其实很清晰：

RAG负责缩小范围，长上下文负责深入阅读。

五、为什么不能直接把所有文档丢给模型？

有同学可能还是不服气：

如果我有钱，每次都把一百本书塞给模型不就行了吗？

理论上可以，但在工程实践中几乎是死路一条。原因主要有三个。

1. 成本问题（Cost）

现在的大模型基本都是按Token收费，就算Coding Plan是按Prompt收费也没区别。

如果不使用RAG：

每次提问都需要把100本书重新输入模型一次，成本会非常恐怖。

而RAG可以把输入Token减少90% 甚至99%。这节省的不是一点点，而是实实在在的运营成本。

所以：RAG本质上是在帮企业省钱。

2. 速度问题（Latency）

你有没有试过给模型上传一个非常大的文件？通常需要等很久，它才会输出第一个字。

这就是所谓的首字延迟（Time to First Token）。

如果用户每问一个问题都要等待几十秒甚至一分钟，大部分用户早就退出页面了。

通过RAG只检索必要信息，可以把响应时间控制在秒级。

3. 准确率问题（Lost in the Middle）

这是最反直觉的一点，很多人以为：

给模型越多信息，答案就越准确。

但学术界有一个著名现象：Lost in the Middle（中间遗忘）。当上下文过长时，模型往往：

记得开头
记得结尾
忽略中间部分

结果反而更容易出错。因此：

先通过RAG进行筛选和提纯，模型回答反而更准确。

六、正确答案是什么？

回到最开始的面试题：

长上下文会杀死RAG吗？

答案非常明确：不会。

但两者之间的关系已经发生变化。可以记住这样一个简单公式：

RAG解决“知道得广”的问题Long Context解决“理解得深”的问题

未来的主流架构既不是：

纯RAG
也不是纯Long Context

而是：

Long Context + RAG

先通过 RAG 检索出高质量的长内容，再让模型进行深度阅读和推理。

七、一句话总结

所以下次面试官再问这个问题，你可以直接这样回答：

RAG负责广度，Long Context负责深度。它们不是竞争关系，而是最佳搭档。

不过，最近发现了一个新项目，好吧也不算新项目了：PageIndex，是一个无向量、推理驱动的RAG框架，我感觉很新奇，打算研究研究，或许能推荐给大家作为一个AI项目练手。

#AI求职实录#

AI面试题目精讲文章被收录于专栏

AI 面试题目精讲专栏：一题一讲、一讲一通透，系统提升 AI 面试应答能力与竞争力

全部评论

推荐最新楼层

牛马人的牛马人生

第一拖拉机制造厂拖拉机学院 C++

混合架构才是未来

1 回复分享

发布于 03-16 18:26 湖北

3Point_Shooter

门头沟学院 Java

确实长上下文再强，整个垃圾输入就老实了哈哈

点赞回复分享

发布于 03-10 17:59 上海

勇敢的90后sp到手了

门头沟学院 PCB工程师

混合架构才是未来！

点赞回复分享

发布于 03-10 17:57 重庆

别打了我是酱油

深圳大学生物制药岗

大佬啊

点赞回复分享

发布于 03-10 17:57 广东

想当offer的收割机

河北财经学院项目专员

直接丢文档真不怕噪声淹死模型了

点赞回复分享

发布于 03-10 17:57 江苏

小王子

郑州大学 iOS开发

首字延迟1分钟？用户早跑了…

点赞回复分享

发布于 03-10 17:57 河南

吉辛

昆明理工大学生物制药岗

1TB数据全喂模型？你老板疯了💰

点赞回复分享

发布于 03-10 17:56 云南

04-18 00:07

网易_数据开发工程师

数开如何使用AI日常工作中提效-SKILL

背景最近有同学在问，当前在AI大环境下大家在开发中如何提效，实现最大化摸鱼，写好SKILL，实现快速复用，配合Open Claw达到最佳效果，我们分为备菜（需要你有架构思维想到怎么准备）->炒菜（让ai给你写好SKILL及优化）->装盘（发布到Skill市场实现复用），大家在做饭时候其实最难的部分不是炒菜而是备菜，因此这里就需要你的经验架构，如果没有经验架构问题也不大，多花token让ai给你一步步确认。Skill介绍什么是 Skill？Skill 是 CC（克劳德code，为了过平台风控没办法只能这样，真的服了） 中的打包式专业知识模块，包含工作流程、参考资料和最佳实践。本质上是...

数据人的面试交流地

点赞评论收藏

03-31 18:10

江南大学算法工程师

一个好Agent是啥样的？

最近大厂招 Agent 工程师的岗位非常多，没有入门的朋友可能觉得“Agent不就是调调 API 吗？”Agent 不同于传统的“一问一答”式 AI，它是在对话模型的基础上增加了一个自主循环，能够根据任务目标判断“还需要做什么”，并调用外部工具执行。理想中的Agent，人类一动嘴，LLM跑断腿，在我们还喝茶打哈欠的时候就把活全干完了，但在实际落地中，想做出一个稳定可用的产品，还是有很多难点的。首先是工具的适配。在一个可用的 Agent 系统中，AI 推理只占约 30% 的逻辑，剩下的 70% 都是非AI的工程化适配。Agent 必须能够稳定处理现实世界的接口边界问题，包括 OAuth 授权、Token 自动刷新、API 速率限制以及海量数据的分页处理。同时，工具的 Schema 定义直接影响调用准确率。优秀的 Agent 需要对工具的粒度和描述进行反复调优，确保模型在面对数十个可选工具时，指令遵循依然清晰稳定。其次是多步任务的可靠性管理。在长链条推理中，错误会随步骤指数级叠加。哪怕单步准确率达到 80%，连续执行五步后的综合成功率也会降至约 32.8%。这种概率衰减意味着一个微小的幻觉就能让整个任务偏航。好的 Agent 必须具备严密的状态管理，能够在执行异常时实现自动捕获、重试或逻辑回滚。在执行关键操作前，还需要设计逻辑校验环节，防止单个步骤的偏移导致整体任务崩溃。接着是上下文的信息治理。大模型在处理长周期任务时普遍面临指令丢失的问题，尤其是在频繁的工具调用产生大量冗余数据时，核心约束容易被边缘化，导致 Agent 出现“失忆”现象。优秀的工程实践需要实现动态内存管理，精准识别并保留关键指令和历史摘要，同时剔除无意义的中间日志。通过提高上下文的信息密度，不仅能降低幻觉风险，也能在多模型路由中有效控制 Token 成本。最近开源社区非常火的 OpenClaw就是一个典型的例子。它作为一个拥有极高系统权限的 Agent 框架，可以直接操作文件和执行命令，极大地扩展了 AI 的能力边界。但在实际应用中，它的提示词工程仍有提升空间。由于权限极高，如果提示词无法精准约束模型的行为，很容易在复杂的执行链条中产生误操作甚至安全风险，且频繁触发的记忆压缩和超高的token消耗也被人诟病。这也是目前高权限 Agent 在落地时面临的核心痛点之一。总的来说，Agent 开发的本质是构建一个以模型为核心的高可靠软件系统。调通接口只是基础，真正的护城河在于你如何处理那些繁杂的非 AI 细节，包括工具层的异常处理、上下文的动态压缩以及评估体系的建立。正在找相关工作的同学，可以看看你简历上的Agent项目，有没有针对以上的痛点做了有效改进，面试官会很感兴趣的。

AI求职实录

点赞评论收藏

04-07 22:16

石家庄铁道大学 Java

Agent面试会问什么

其实Agent面试的核心都绕不开大模型理解、工具调用、流程编排还有工程落地这几块，不会太偏理论，更多是看你能不能把技术落到实处。首先肯定会问你对Agent的理解，比如它和普通大模型应用到底不一样在哪，要是说不出自主决策、记忆和工具调用这些关键点，大概率会被觉得底子不扎实。还会聊到主流的框架，比如LangChain或者LlamaIndex，问你用过没有，各自有什么优缺点，踩过哪些坑。然后技术层面会盯着工具调用和RAG这两个核心。比如怎么让Agent精准选对工具，调用失败了该怎么处理，会不会加重试机制或者异常兜底。RAG也是必聊的，比如它在Agent里能解决什么问题，怎么提升检索的准确率，用过哪些向量数据库，这些都得结合实际的使用经验说，光背概念可不行。还有记忆模块，短期记忆和长期记忆的区别，怎么存怎么取，这些细节也会被问到。作为Java工程师，面试官肯定会更关注你怎么把Agent和业务系统结合起来。比如怎么用Java调用大模型API，怎么对接公司现有的接口让Agent拥有实际业务能力，甚至会问你怎么解决大模型调用的延迟和限额问题，比如缓存、异步处理这些实际的优化手段。幻觉问题也是绕不开的，得说说你平时怎么通过事实校验、多轮反思来减少这种情况。项目经验这块特别重要，哪怕没做过正式项目，自己搭的Demo也能说。比如做过知识库问答Agent，或者代码调试助手，得讲清楚核心流程，遇到过什么难题，比如工具调用成功率低，或者检索结果不准，最后是怎么解决的。还会给你出一些实际场景题，比如让你设计一个电商客服Agent，怎么对接订单和物流系统，得有清晰的思路。偶尔也会有一些开放问题，比如你觉得Agent未来会往哪个方向走，多模态或者行业专用Agent算不算趋势，还有作为Java开发者，转型做Agent开发的优势和挑战是什么，这些问题能看出你有没有自己的思考，不是单纯跟风入行。总的来说，Agent面试不怎么考死记硬背的东西，更看重你对技术的理解和实际动手能力，尤其是怎么把AI和业务结合起来，解决真实问题。

查看13道真题和解析

点赞评论收藏

04-04 15:39

门头沟学院前端工程师

Claude Code系统架构

Claude Code 51 万行源码泄露，是一场低级失误引发的行业地震，更是一次免费的技术普惠。它证明：顶级 AI 编程助手≠大模型堆参数，而是架构设计 + 工具编排 + 上下文管理 + 安全机制的综合工程。从六层架构到 Multi-Agent、智能压缩，这套设计已经成为 AI Coding Agent 的事实标准。1.用户交互层：终端 UI，自研引擎不卡技术：React + 自研 Ink 渲染引擎（重写 Reconciler，80 + 文件）。核心：解决 AI 流式输出（每秒几十次更新）的卡顿问题，用双缓冲渲染实现 16ms 级流畅刷新。形态：CLI 命令行、支持彩色 / 滚动 / 实时编辑、多面板布局。2. 命令与技能层：100 + 斜杠命令，降低门槛作用：把复杂 Agent 能力包装成/commit、/diff、/tasks、/agents等Slash 命令，开发者不用记复杂语法。能力：覆盖 Git 工作流、多 Agent 管理、任务调度、外部工具接入（MCP 协议）。3. 核心引擎层（大脑）：QueryEngine + 工具 + 权限三驾马车这是 Claude Code 的灵魂，4.6 万行代码的 QueryEngine 是绝对核心。QueryEngine：对话编排中枢，负责任务拆解、思维链、工具选择、循环重试、结果汇总，把自然语言转成可执行步骤。工具系统：定义 40 + 标准工具（文件、Bash、Git、搜索、子 Agent），支持动态扩展、并行调用。权限框架：细粒度工具审批（自动 / 手动确认）、危险命令黑名单（rm -rf）、沙箱降权、审计日志。4. 服务层：对接大模型与外部能力核心服务：claude.ts封装所有 Anthropic API 通信，管理请求 / 响应 / 长连接、流式输出。外部集成：MCP 协议（Model Context Protocol）接入第三方工具、Git/GitHub API、文件系统、终端命令。5. 上下文与记忆层：解决 AI “失忆”，长对话不崩Claude Code 最惊艳的设计之一 ——四层记忆 + 智能压缩，支持超长会话、项目级理解。系统提示（claude.md）：项目级规则（技术栈、规范、风格）。目录状态：代码树结构、关键文件、依赖关系。对话摘要：历史压缩，保留关键信息、剔除冗余。实时上下文：工具调用最新结果、当前编辑内容。压缩机制：上下文用到 75%~92% 时自动触发，按信息密度（代码占比）优先压缩低价值内容，避免 Token 爆炸。6. 基础设施层：运行底座运行时：Bun（非 Node.js）—— 更快启动、更低内存、原生 TS 支持。状态管理：React Hooks 全局状态、文件持久化、跨会话记忆。安全沙箱：本地权限隔离、命令白名单、操作审计。三、藏在代码里的 5 大黑科技：为什么 Claude Code 比普通 AI 助手强？1. Multi-Agent 蜂群协作：一个需求，一群 AI 干活泄露代码曝光了未发布的多 Agent 系统—— 彻底告别 “单个 AI 串行干活”。主 Agent（协调器）：拆解任务、分发、汇总结果。子 Agent（分工）：前端、后端、测试、文档各守一职，独立上下文、并行执行。通信：共享消息总线，直接对话、无需人工中转。效果：200k Token 任务拆成 3 个 70k 并行，速度 ×3、质量更高、不丢上下文。2. 双模式推理引擎：快任务秒回，复杂任务深度啃快速路径：轻量子模型，延迟 < 50ms，处理简单查询（解释代码、查函数）。深度路径：全模型 + 多阶段推理 + 工具循环，支持7 小时 + 无中断代码重构。3. Hook 自动化：开发流程 “自动驾驶”事件驱动触发器，7 类核心 Hook（文件编辑、消息、工具 / 任务前后），改 JSON 就能配置自动化：改测试→自动跑 Lint；提交前→自动跑测试；写入文件→自动规范校验。4. 代理式搜索（Agentic Search）：不上传代码库，更安全传统助手（Copilot）要把整个代码库上传云端索引，隐私风险大。Claude Code：按需调用工具，只读需要的文件、本地处理，不把全库发云端。5. 反竞争防御：偷偷塞 “假工具”源码曝光：每次 API 调用会混入几个假工具—— 专门污染偷数据训练竞品的人，属于 Anthropic 的 “商业防御黑科技”。

Claude Code泄...

点赞评论收藏

04-15 17:18

已编辑

门头沟学院人工智能

数坤Agent一面

📍面试公司：数坤科技🕐面试时间：4.15（1h左右）💻面试岗位：实习算法工程师❓面试问题：1.自我介绍2.项目介绍，用代码/伪代码介绍项目数据流3.你的agent项目是如何评估的？4.rag的召回指标如何评估？5.如何知道chunk是不是你的目标chunk？只能人为标注？能不能自动化完成？[补充]如何写好一份prompt？6.rag效果不好怎么办？微调？成本太高怎么办？prompt工程？小模型提示词写好之后依然对有些数据效果好，有些数据不好，怎么办？除了微调，换模型，还有什么？7.KV cache原理？为什么不存Q？8.数据漂移怎么办？哪些参数影响模型推理阶段回答的稳定性？如何影响？手撕: 开根号反问: 组内业务/人数，作息时间🙌面试感想：有几个问题忘了，记性不太好。。想起来会补充。面试官人挺好的，不过我回答问题啰啰嗦嗦又磕磕巴巴。。

查看9道真题和解析

点赞评论收藏

招聘动态

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

AI网申助手

网申字段一键填写

阿里巴巴集团

2027届实习生校园招聘

招商银行数字金融训练营

火热报名中

联想

27届暑期实习

厦门银行

2026届春季校园招聘

联想

26届补录

27届校招宝典

滴滴

2027届秋招储备实习生招聘

全站热榜

创作者周榜

正在热议

# 你和你的mentor相处模式是__ #

845次浏览 9人参与

# 如果公司降薪，你会跳槽吗？ #

159775次浏览 929人参与

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

# 华泰星战营，提前锁定校招offer #