请先做一个简单的自我介绍。你现在是研究生在读吗?预计什么时候毕业?之前在北京的医疗科技公司实习,主要做什么内容?是实习岗位吗?你了解我们现在面试的也是一个实习岗位吗?你在那家公司主要待了多久?他们公司主要做什么?你参与的是RAG知识库的构建工作吗?具体是怎么做的?拿到一个文本后,你会怎么处理来构建知识库?输入源是文本,具体处理流程是怎样的?你提到大于512(token)的存在向量数据库,小于512的存在缓存里,对吗?如果大于512的内容没有存入向量数据库,那检索时怎么找到它?因为最终查询是基于向量数据库的。实际使用时,用户通过自然语言对话来查询,表达方式多样且不确定,RAG返回的答案会不会出现较大偏差或波动?检索时计算向量距离,用的是Embedding模型吗?向量化是怎么做的?比如给定一段文本,如何将其向量化?能否解释一下向量化的过程?你主要用了哪个Embedding模型?用了GPU吗?公司是否部署了GPU用于训练大模型?RAG的知识库是部署在本地还是企业服务端?你在介绍模型优化时提到了“蒸馏”,请解释一下什么是知识蒸馏技术。你写过Skill吗?(进一步问:Skill是什么?)你们主要用什么开发语言?用什么工具?除了Cursor之外,你有没有自己编过码?有没有独立开发过?使用Cursor和自己编码有什么区别?有什么感受?你的英语怎么样?CET6是本科还是研究生考的?你这边有什么问题想问我的吗?