在 AI 应用的场景中,rag可以说是一项必备的技术,在智能客服,导购 agent,智能创作等有检索需求的场景都会使用到,所以这里结合一些实际的应用场景和大家做一些分享一,数据准备数据准备是 rag 整个流水线中非常重要的一环,所以在实际的生产场景中,也主要是看数据解析,以及使用不同的向量库落库的过程 文件解析(pdf,docx,txt,md)目前常见的文件解析,就是利用 Apache tika 等开源库做解析组件,但对于一些富文本的数据,比如有图片和表格的情况,就要借用 ocr 等辅助手段大表格处理表格是比较常见的数据类型之一,但是大表格解析通常会有一些问题比如在切块的时候如果每一行都作为 ...