1. 做一下自我介绍2. 讲一下你做的这个平台,重点说难点 解决了什么问题这个项目的核心不是“把文档喂给模型”,而是先把不同来源的材料转成可稳定检索、可引用、可更新的知识单元。整体架构一般包括文档接入、格式解析、结构抽取、分块与向量化、倒排索引、重排服务、回答生成和引用回填。我负责的部分主要是 chunk pipeline、索引写入和查询编排。难点主要在复杂文档结构,比如目录、页眉页脚、跨页表格、附件引用和条款层级,如果直接按长度切块,召回会很乱,模型也很容易把不同证据拼错。 def build_index(doc): blocks = parse_document(doc) chunks =...