bg单9硕 先请你做一下自我介绍。请讲一下你的那段实习经历。希望你先讲一下它的背景,然后要解决什么问题,以及你们具体采取的一些措施,最终的结果。你在这里写到用了父子文档,父文档是怎么得到的?你刚刚说用语义的方式把它切分,具体是怎么做的?你是把每一句做一个 embedding,然后去聚类吗?是按句来进行划分的吗?还是说按照比如 512 个 token 这样一段一段来切分?比如现在有一个文本,有两段,总 token 数超过 512,你是怎么切分的?最后小于 512 个 token 是怎么做的?你聚类的最小单元就是一句话吗?比如现在有两段话,总 token 数是 600,你先按句子级别划分,再去聚类,聚类之后聚成多少个类?如果是 600 个 token,相当于是聚成两类是吧?聚类之后,你们怎么区分 A 跟 B(考虑聚类后会打乱原有文档顺序的问题)?你做的这些切分和聚类,其实只是为了后面加速检索,是吗?检索时如果命中某个类里面的文档,就会把整个文档返回作为知识库,是吗?你还对 Rerank 模型进行了蒸馏,蒸馏的数据是什么样的?训练数据大概有多少条?什么量级?用的是千问 3 8B 吗?后面还有 Skill 跟 MCP 这一块,大概讲一下吧。你这个 SKill中的 SOP 大概是什么样的?请讲一下你的下一个项目。你这个项目中的相关性的结果后面是要怎么用?请讲一下 BERT 跟 GPT 架构的区别。请大概说一下 Transformer 的架构,从一句话输入到最终生成,中间发生了哪些事情?在你的第一个项目里,有用到一些不同的检索算法吗?请讲一下。基于 embedding 的语义检索跟基于 BM25 这种关键词检索,它们的区别是什么?反问