1. 如果知识库原始数据不是 markdown,而是 PDF、PPT、图片或者网页,你会怎么处理进 RAG 系统?PDF 和 PPT 会提取标题、段落、表格和页码,图片先做 OCR,网页先抽正文和元信息,然后统一清洗噪声、去掉页眉页脚、按语义做切片,补上来源、时间、文档层级这些元数据,最后再做 embedding 和索引。这样后面的召回、溯源和权限控制都更稳定。 public List<Chunk> buildChunks(Document doc) { List<Block> blocks = parser.parse(doc); List<Block> ...