超聚变数字技术 大模型开发 一面

1、自我介绍

2、简单聊下实习干了什么 ,解决了什么问题

3、讲讲什么是 RAG,结合你做过的企业知识库问答系统讲一下 RAG 调用的全流程

RAG 是 Retrieval-Augmented Generation,也就是检索增强生成。它的核心思想是先从外部知识库中检索相关内容,再把检索结果作为上下文交给大模型生成答案,这样可以降低模型只依赖参数知识带来的时效性和幻觉问题。以企业知识库问答系统为例,完整流程一般是用户输入问题之后,系统先做 query 预处理,比如纠错、改写、意图识别和关键词提取,然后进入召回阶段,从向量库、全文检索或者混合检索系统里找出候选文档;候选文档出来后再做 rerank 重排,把最相关的结果排前面;接着做上下文构造,把文档去重、截断、压缩并按顺序拼接进 prompt;然后把 system prompt、用户问题和检索证据一起送给 LLM;模型生成后再做结果解析、引用补充、敏感信息过滤和日志埋点。离线侧还包括知识库清洗、chunk 切分、embedding 生成和索引构建。

4、rerank 重排具体使用的是算法还是模型

实际项目里 rerank 更多是模型,不是单纯规则算法。常见做法是第一阶段先用 embedding 做粗召回,把候选范围缩小;第二阶段再用 cross-encoder 或专门的 rerank 模型对 query 和 document 成对打分,然后按分数排序。embedding 适合大规模检索,速度快但精度有限;rerank 适合精排,能够更准确判断语义相关性,但成本更高。所以工程上通常是“召回 + 重排”两段式,不会直接靠一个简单排序规则完成全部相关度优化。

5、讲讲你做过的智能客服助手里的 LLM 调用全流程

LLM 调用全流程一般是用户请求先到应用服务层,先做鉴权、参数校验、限流和会话信息读取,然后根据业务场景构造 prompt,把 system prompt、用户输入、历史对话、检索结果和工具输出拼成模型输入。如果是知识问答场景,会先走 RAG 检索链路再拼上下文;如果是结构化生成场景,会提前约束输出格式,比如 JSON。之后通过模型网关调用底层模型,支持同步返回或者流式返回。模型输出后再做解析和后处理,比如格式修复、敏感信息过滤、引用标注、结果入库和 token 统计。如果是多轮对话,还会更新会话上下文和长期记忆,同时记录调用日志、耗时、失败原因和评测样本。

6、在你做过的智能客服助手里,token 策略执行和长对话管理是怎么做的

token 策略的核心目标是控制成本、降低时延,同时保证有效信息尽量不丢失。长对话里不会把所有历史消息原样传给模型,而是保留最近几轮原始对话,把更早内容做摘要,摘要作为记忆继续参与后续生成。对于检索结果也会做长度控制,不会整篇文档直接塞进去,而是只保留和当前问题最相关的 chunk 或关键句。实际执行时,一般会先估算当前请求总 token,如果超过阈值,就按优先级裁剪上下文,比如先裁剪低相关检索片段,再裁剪较早轮次对话,最后必要时只保留摘要。这样做既能控制窗口长度,也能减少无效噪声。

def build_context(query, history, docs, max_tokens=4000):
    recent_history = history[-4:]
    summary = summarize(history[:-4]) 

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

AI-Agent面试实战专栏 文章被收录于专栏

本专栏聚焦 AI-Agent 面试高频考点,内容来自真实面试与项目实践。系统覆盖大模型基础、Prompt工程、RAG、Agent架构、工具调用、多Agent协作、记忆机制、评测、安全与部署优化等核心模块。以“原理+场景+实战”为主线,提供高频题解析、标准答题思路与工程落地方法,帮助你高效查漏补缺.

全部评论

相关推荐

03-12 12:33
嘉应学院 Python
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务