亚信科技大模型开发一面

1、自我介绍

我主要做的是大模型应用开发和 NLP 相关工作，技术栈以 Python 和 Java 为主。平时做得比较多的是 RAG、知识库问答、Agent 流程编排、数据清洗、信息抽取和模型服务化部署。之前接触过 FAQ 问答、命名实体识别、文本处理、检索召回优化、多轮对话上下文管理这些方向，也做过一些评测和效果优化工作。我希望找一份偏大模型应用落地的岗位，把模型能力和业务场景结合起来，重点做效果、工程和稳定性的平衡。

2、实习经历

3、RAG 的优化，项目中 Agent 的流程

RAG 的优化一般可以分成数据侧、检索侧、重排侧、上下文构造侧和生成侧。数据侧主要是文档清洗、去噪、切 chunk、补充标题和元数据，因为原始知识质量会直接影响最终问答效果。检索侧常见优化是向量检索和关键词检索结合，也就是混合检索，这样既保留语义召回能力，也保留精确词匹配能力。重排侧一般会加 rerank 模型，对召回回来的候选文档重新打分，提高前几个结果的相关性。上下文构造阶段会做去重、压缩、截断和顺序调整，避免无关内容占掉太多 token。生成侧则会通过 Prompt 约束模型必须基于证据回答，并且在证据不足时明确说不知道，从而降低幻觉。

项目里的 Agent 流程本质上是让模型做决策，让系统做执行。典型流程是用户先输入问题，系统先判断任务类型，如果只是 FAQ 或知识问答，就走 RAG 检索链路；如果问题涉及查接口、查数据库、调用外部工具，就由模型决定调用哪个工具，并生成结构化参数；工具执行后把结果返回给模型，再由模型组织最终答案。整个过程中通常还会有记忆管理、上下文拼接、工具结果校验和异常兜底。简单说就是先理解问题，再决定要不要调用工具，调用后再汇总结果并返回。

4、数据处理

数据处理在大模型项目里非常重要，因为很多效果问题最后都不是模型本身的问题，而是数据问题。一般流程是先拿到原始文本，然后做去重、去空、去特殊符号、编码统一、字段清洗、脏数据过滤、无效样本剔除。对于知识库类数据，还要做结构化拆分，比如标题、正文、标签、来源、时间这些字段分开处理。进入 RAG 场景后，还要做 chunk 切分，chunk 不能太短，不然语义不完整，也不能太长，不然召回和上下文利用率都不好。对于训练任务，还要检查标签分布、类别不平衡、标注一致性和数据泄漏问题。数据处理做得好，后面的召回、分类、NER、问答都会更稳。

5、NER 是什么

NER 就是命名实体识别，目标是从文本中识别人名、地名、机构名、时间、产品名这类有明确语义边界的实体。它本质上是一个序列标注任务，输入是一段文本，输出是每个 token 或字对应的标签。常见标注方式是 BIO 或 BIOES，比如 B-PER 表示人物实体的开始，I-PER 表示人物实体内部，O 表示不属于任何实体。传统方法有 CRF、HMM，后来常见的是 BiLSTM-CRF，再到现在更多是 BERT-CRF 或直接用大模型做抽取。NER 的难点主要在实体边界识别、嵌套实体、歧义实体和领域迁移。