面试官问“RAG各模块的优化策略有哪些”,怎么回答?
说实话,这道题放在以前,我的反应都是:不就是向量数据库加个大模型吗?但我也清楚,如果真这么答,基本等于告诉我只会调API。
真正的生产级RAG是一套精密的工程系统。今天把它拆成四个模块,帮你建立一套完整的面试作答框架。
模块一:数据清洗与离线索引
垃圾进,垃圾出。原始数据里混着乱码和格式错乱的PDF,模型不可能检索得准。
语义分块是第一个优化点。过去按固定字符数切分(比如500字一段),经常把一句话拦腰截断,语义全丢。现在要根据标题、段落结构甚至用模型来判断断点,保证每个分块语义完整。
进阶策略是父子块检索:把文档切成小碎块用于检索(精度高),但喂给模型时把它所在的父块一并带上(上下文全)。小块检索准,大块上下文全,两全其美。
还有一个实战痛点是PDF表格。解决方案是引入布局分析,将表格转成Markdown格式,或者用模型为表格生成摘要后存储,让结构化数据变得可检索。
模块二:检索阶段优化
数据准备好了,用户来提问。向量检索虽然懂语义,但对精确的专有名词不敏感,你搜一个产品型号,它可能给你返回一堆语义相近但完全无关的内容。
混合检索是核心方案:向量检索负责抓语义,BM25关键词检索负责抓精确匹配,最后用融合算法合并结果。不管用户是按意思搜还是按字面搜,都能覆盖到。
用户提问太简略或者问法奇怪怎么办?用查询变换策略,典型的如HyDE(假设性文档嵌入):先让模型根据问题生成一个假答案,再用这个假答案去检索——因为假答案和真答案在向量空间中更接近,检索精度会显著提升。
模块三:重排序与上下文压缩
搜到了不等于完事。很多人直接把前十条结果全塞进Prompt,这是大忌。会直接导致大模型的Lost in the Middle现象。它对开头和结尾的内容记得清楚,中间的容易失忆。
所以必须做重排序。初步检索只是粗选,再用Cross-Encoder等精排模型把最相关的片段推到最前面。这是RAG优化中性价比最高的手段,没有之一。
配合上下文压缩,把无关的冗余信息裁掉,只保留关键内容。既省Token、降成本,又让模型回答更聚焦。
模块四:生成与评估
最后,也是最容易产生幻觉的环节。
策略很直接:在Prompt中明确约束,如果上下文中没有提到,直接回答“我不知道”,严禁脑补。同时要求模型在回答中标注引用来源(如“来自文档A第3段”),让用户一点即可溯源。
评估方面,要用RAGAS等框架从三个维度量化衡量:忠实度(答案是否忠于文档)、相关性(检索内容是否对题)、命中率(关键知识点是否被召回)。有了数据支撑,优化才有据可查。
面试怎么答?
第一步,先给全景。开口就说:“RAG的优化可以沿着数据处理、检索、后处理和生成评估四个阶段来拆解。”虽然挺废话的,但也主要是为了让面试官知道你有系统性思维。
第二步,逐模块展开,每个模块点到核心。数据层讲语义分块和父子块检索,检索层讲混合检索和HyDE,后处理层重点讲重排序(强调这是ROI最高的优化),生成层讲幻觉防控和引用溯源。
第三步,用评估收尾。主动提到RAGAS框架和三个核心指标,表明你不是拍脑袋优化,而是用数据驱动迭代。
最后一句话总结立场:“RAG的上限不在于模型有多大,而在于数据清洗有多干净、检索链路优化有多精细。”
这套回答逻辑清晰、覆盖全面、有理有据,比起我这个只会说加个向量数据库的候选人,高下立判。
AI 面试题目精讲专栏:一题一讲、一讲一通透,系统提升 AI 面试应答能力与竞争力

查看10道真题和解析