首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
RAG 系统你怎么设计?切分、索引、召回重排、压缩融合、
[问答题]
RAG 系统你怎么设计?切分、索引、召回/重排、压缩/融合、兜底策略都怎么串起来。
添加笔记
求解答(0)
邀请回答
收藏(22)
分享
纠错
4个回答
添加回答
2
梦到啥说啥
1.文件上传 -> 异步解析文件 -> 向量化 -> 存储到向量数据库
2.请求查询 -> 向量化查询语句索引 -> 从向量数据库查询语意相近的文本块内容 -> 结合提示词向大模型提问 -> 流式返回
发表于 2025-09-24 21:48:04
回复(0)
0
Jerryyyytse
chunking: 重叠窗口(chunk size), 按语义边界切分(sentences, characters, etc.) indexing: embedding, vector store database retreival/ranking: vector similarity (向量检索的第一名可能并不准确, need to rerank! - top K) compression: LLM的上下文窗口有限, 需要压缩
发表于 2026-04-20 10:17:52
回复(0)
0
喜欢溜溜球的蚊不叮在写面经
首先,将参考的文档按语义进行切分(重叠20-30%),生成关键词和摘要做为辅助字段,将切分之后的结果进行词嵌入操作,生成的向量存入向量数据库(Milvus)中,给向量根据关键词做索引,存上数据时间来源等信息,还可以对原文档的片段进行改写/扩展,利用LLM进行片段的压缩,信息的去噪,相似度比较高的片段进行合并操作。 用户询问,先将询问的内容用同样的方法进行向量化,然后做相似度的匹配,找到topk相似度的结果(兜底策略:低命中/低置信的时候,放宽检索阈值,二次改写,转人工然后记录结果),将结果放到prompt模板中(可以添加上来源和时间这些信息),然后和用户查询一起输入给LLM,如果要做引用,让大模型输出引用和置信度标签。
发表于 2026-03-26 22:39:02
回复(0)
0
Raymond_030927
一般都是用户键入Query,调用API做embedding,创建向量库,做向量相似度检索,返回topk个doc,然后通过prompt工程结合LLM输出。但是这一步基本用于上下文内容以及用户事实是基于基本事实上的,如果要考虑到多跳,或者逻辑型问题,就要考虑使用Graph RAG 此外,对于上下文本身的处理再位置编码,可以等比压缩,或者分解为原子事实等 1
发表于 2026-03-14 06:30:52
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
来自:
大模型应用-牛客面经八股
难度:
4条回答
22收藏
1008浏览
热门推荐
相关试题
把 Transformer / D...
评论
(8)
来自
2025年-华为-AI算...
Function/Tool‑Cal...
评论
(1)
来自
大模型应用-牛客面经八股
挑一个你深入研究过的模型(比如 D...
评论
(2)
来自
大模型应用-牛客面经八股
提示词工程你是怎么搞的?Syste...
评论
(2)
来自
大模型应用-牛客面经八股
评测体系你怎么搭:离线(MT‑Be...
评论
(0)
来自
大模型应用-牛客面经八股
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题