RAG 系统你怎么设计？切分、索引、召回重排、压缩融合、

[问答题]

RAG 系统你怎么设计？切分、索引、召回/重排、压缩/融合、兜底策略都怎么串起来。

梦到啥说啥

1.文件上传 -> 异步解析文件 -> 向量化 -> 存储到向量数据库

2.请求查询 -> 向量化查询语句索引 -> 从向量数据库查询语意相近的文本块内容 -> 结合提示词向大模型提问 -> 流式返回

发表于 2025-09-24 21:48:04 回复(0)

Jerryyyytse

chunking: 重叠窗口(chunk size), 按语义边界切分(sentences, characters, etc.) indexing: embedding, vector store database retreival/ranking: vector similarity (向量检索的第一名可能并不准确, need to rerank! - top K) compression: LLM的上下文窗口有限, 需要压缩

发表于 2026-04-20 10:17:52 回复(0)

喜欢溜溜球的蚊不叮在写面经

首先，将参考的文档按语义进行切分（重叠20-30%），生成关键词和摘要做为辅助字段，将切分之后的结果进行词嵌入操作，生成的向量存入向量数据库（Milvus）中，给向量根据关键词做索引，存上数据时间来源等信息，还可以对原文档的片段进行改写/扩展，利用LLM进行片段的压缩，信息的去噪，相似度比较高的片段进行合并操作。用户询问，先将询问的内容用同样的方法进行向量化，然后做相似度的匹配，找到topk相似度的结果（兜底策略：低命中/低置信的时候，放宽检索阈值，二次改写，转人工然后记录结果），将结果放到prompt模板中（可以添加上来源和时间这些信息），然后和用户查询一起输入给LLM，如果要做引用，让大模型输出引用和置信度标签。

发表于 2026-03-26 22:39:02 回复(0)

Raymond_030927

一般都是用户键入Query，调用API做embedding，创建向量库，做向量相似度检索，返回topk个doc,然后通过prompt工程结合LLM输出。但是这一步基本用于上下文内容以及用户事实是基于基本事实上的，如果要考虑到多跳，或者逻辑型问题，就要考虑使用Graph RAG 此外，对于上下文本身的处理再位置编码，可以等比压缩，或者分解为原子事实等 1

发表于 2026-03-14 06:30:52 回复(0)