段段Steady

昨天 20:05 百度_高级研发工程师

发布于北京

关注

AI面试相关之RAG与Doris（JAVA）

最仅段段开始复习并面试了，但是市场行情还是差点意思，段段把最近学的和面试的，以及段段做的AIGC项目做个小总结，希望能对大家带来帮助。

不得不感叹AI进步速度之快，我们这帮研发天天研究用AI革自己的命，属于是没有办法的办法了，在这个巨大变革的时代，我们也不得不跟进潮流，防止淘汰了，闲话少说，上干货。

本文主要讲解RAG架构，RAG定义，Doris数据仓湖，Doris分区分桶，贪多嚼不烂，先讲这几个。

一、RAG架构

什么是RAG架构，很多同学其实有思想误区，任务RAG是个向量库，RAG是个什么什么服务，其实都不准确。严格来说，RAG代表一种架构思想。

定义：RAG全名增强检索生成（Retrieval-Augmented Generation），是大模型AI技术方案，通过外部知识库检索相关信息，为大模型提供精准上下文，解决AI幻觉，知识过时，领域知识不足等问题。

为什么要通过外部知识库？以为涉及企业保密问题，同时为了在专项领域更加精确。

为什么会产生幻觉？因为没有准确信息，AI就会胡编乱造。

为什么会知识过时？因为大模型是基于上一代数据训练好的，如果没有实时文档或者联网查询，那么知识就是旧的。

核心过程：文档切片与存入向量数据库、用户问题转向量查询相关片段、问题+检索上下文+LLM可溯源答案。

其实我们以JAVA开发维度，可以将RAG分成两部分。一部分是后端负责，另一部分大模型负责。后端主要是用户问题解析与切片，相关知识形成向量数据库，调用向量数据库查询出高相关文本切片，然后调用大模型生成答案。

高频面试题：

1.为什么要文本切片？文本切片如何做？

2.Embedding是什么，作用是什么？

3.为什么要Rerank重排序？意义是什么？

4.RAG架构是什么？解决了哪些痛点？

5.上下文太多怎么办？如何优化？

6.RAG常见优化手段？

二、Doris与RAG误区

上一点已经讲了，关于RAG与Doris的误会，这一部分具体讲讲RAG中的Doris是如何应用的。

传统企业是什么样？MySQL存储业务数据，ES用来做检索引擎，向量库（Milvus/Chroma）存向量，还要做数据同步，成本太高，过于复杂。

为什么用 Doris 做 RAG？简单来说，因为他能在一套系统里，同时搞定向量检索+文本检索，结构化数据+高并发分析，我们就不用搞一套向量数据库，再搞一份数据仓湖了。因为很多场景下，企业既有大模型文档场景应用，又有大数据报表可视化的需求，而这两者都可以通过Doris会实现。

Doris+RAG典型流程：

1.数据准备：文档切片、生成Embedding、写入Doris并建立向量索引。

2.检索阶段：用户提问、生成查询向量（同Embedding方法）、Doris混合索引（向量+关键词）、召回相关文档。

3.生成阶段：拼接上下文、调用LLM大模型，生成精确回答。

应用场景：比如企业问答，智能助手、智能客服，实时分析等。

高频面试题：

1.为什么用 Doris 做 RAG。

2.Doris 向量检索实现，Doris索引优化。

3.RAG 流程中 Doris 的角色。

4.对比传统 RAG 架构（MySQL+ES + 向量库），Doris有什么优势？

三、Doris知识扩展

Doris适合做什么？报表、漏斗、ROI、大盘。高并发聚合查询，以及RAG场景向量检索。

Doris为什么要分区分桶，如何实现？分区：横向切分，按天RANGE分区，减少扫描范围，管理冷数据。分桶：纵向打散，HASH分桶，提升并行度，管理查询与并发。

分区如何建立？按dt日期range分区，分月，分天，主要是数据量太庞大，为了优化存储和提升查询效率，以及数据结构型，所以要分区。

分桶如何建立？分桶键选择高基数关键字段，比如user_id，customer_id等，分桶数一般是BE节点数*核数，常见的就是3/6/12。这样做的好处就是，数据打散，聚合、join、向量检索并行加速。

高频面试题：

1.Doris分区分桶如何实现？意义是什么？

2.Doris基本定义，FE、BE指的是什么？

3.Doris存储过程和查询过程，为什么速度快？

4.Doris 为什么比 MySQL 快？

5.向量索引如何优化？

下篇我们讲我做的AIGC项目，将用户与智能助手的多轮对话自动转化为高价值结构化销售线索，并打通广告再营销、转化追踪与数据报表闭环。由于保密问题，所以项目我结合了当下比较热门的项目进行整合重构，但是重点的知识点不会少。

#AI求职实录#

全部评论

推荐最新楼层

Musennnn

黑龙江大学 Java

太强了

点赞回复分享

发布于昨天 20:13 广东

03-03 19:02

已编辑

东华理工大学 Node.js

倒反天罡

真投了你又不给ps:楼主其实比起去大厂当螺丝钉 更想去一些初创公司或外企。楼主是一年不到的社招。

点赞评论收藏

03-03 14:03

山东大学嵌入式软件工程师

面试官问“RAG各模块的优化策略有哪些”，怎么回答？

说实话，这道题放在以前，我的反应都是：不就是向量数据库加个大模型吗？但我也清楚，如果真这么答，基本等于告诉我只会调API。真正的生产级RAG是一套精密的工程系统。今天把它拆成四个模块，帮你建立一套完整的面试作答框架。模块一：数据清洗与离线索引垃圾进，垃圾出。原始数据里混着乱码和格式错乱的PDF，模型不可能检索得准。语义分块是第一个优化点。过去按固定字符数切分（比如500字一段），经常把一句话拦腰截断，语义全丢。现在要根据标题、段落结构甚至用模型来判断断点，保证每个分块语义完整。进阶策略是父子块检索：把文档切成小碎块用于检索（精度高），但喂给模型时把它所在的父块一并带上（上下文全）。小块检索准，...

查看16道真题和解析

点赞评论收藏

02-09 19:27

蒟蒻小学算法工程师

RAG智能文档助手

基于RAG做智能文档助手，技术栈贴合春招暑实，涵盖LLM+向量库+简单开发，一周就能做出基础版，还能逐步加功能升级，成果能演示，简历有亮点，上手易还能练核心AI开发能力

推荐一个值得做的AI项目

点赞评论收藏

昨天 22:56

桂林电子科技大学前端开发其它

27双非前端

目前找到了一个广州日常ai前端开发实习，下周一入职，我的打算是边实习边找暑期实习，找到暑期实习后实习完三个月我就去暑期实习，这样规划的可行性高吗，四五月份还能找到暑期实习吗？

AI求职记录

点赞评论收藏

03-02 19:25

浙江工业大学深度学习

本人双九（一般的985）现在🐻厂实习字节hr两次电联同一个职位的实习，问我考不考虑，第二次说的很恳切🐻厂给的测开，字节给的后端本人还没确定，秋招走大厂还是走央国企，目前暂时偏向稳定，更倾向于在江浙一带工作犹豫的点:1.目前组内氛围好，mt也好，组长也好2.如果再面试，我需要重跑我的项目，再准备+八股+手撕，会很累3.如果准备不充分，怕脏面评02-04 22:16 已编辑 北京收到1人送花1朵33大家都在搜：央国企全部评论 (41条)推荐最新学也学不动玩也玩不爽02-08 21:53门头沟学院 C++过来人告诉你 字节hr 就是这德行面试前对每个候选人特别舔 面完找他问进度就查无此人了山东227我不爱上班啊 :哈哈哈哈哈，这几天在xhs上略有了解海捞吧hhh小何和 :前期很热情，突然很冷淡😁超级无敌霹雳小猪猪02-05 09:53深圳职业技术学院 护士双九这么不自信的吗？广东27我不爱上班啊 :我这个实习的准备时间短，感觉在接其他面试被拷打了，项目和技术栈不熟，就没什么自信ZYLOM05 :稳定也挺好呀走呀走02-06 12:10门头沟学院 C++在面字节前面几家其它的后端面试会好一些江苏12我不爱上班啊 :哈哈哈哈我同门面字节，一面二面就没有低于1h的，哈人小凡h02-15 17:34四川大学 天线工程师🐻厂留用率？甘肃01kaori__02-14 13:32香港大学 Java哥们儿你不知道字节是一线大厂里面发面最多的吗，发面试又不是oc，hr再恳切有作用吗北京11楼主 匿名牛油 :现在知道了哈哈哈越今朝002-11 13:10四川大学 后端工程师为啥要犹豫，字节不还是正常面试吗，又不是已经拿到oc了北京11楼主 匿名牛油 :不想脏面评，不过现在也无所谓了，也不准备去大厂在改简历的大卫很认真今天 19:17浙江工业大学 深度学习现在这么卷，0实习能进的，都是有真本事的浙江00我就不理解了02-27 12:03京东 后端开发工程师测开转后端也不错吧，不过HR虽然舔，面试要求不会放松的北京00ScarletMoon_02-11 20:42南京理工大学 Java🐻厂留用率？江苏10楼主 匿名牛油 :听说转正会比较容易？不是特别了解_hengheng02-10 14:28阿里巴巴 ai infra还以为是到hr面了让你去呢，就约个面试能有多诚恳北京00嵌入式的小白02-08 21:50西安理工大学 嵌入式软件开发那就赶紧准备啊，看看别人面经，刷八股啥的陕西10我不爱上班啊 :暂时没有特别想换的准备，大概率all in央国企了哈基米奶龙02-08 15:35北京邮电大学 后端工程师字节hr都很热情吧，最近27届暑期开了，也收到几个电话 但是考虑不想脏面评就不面了北京10我不爱上班啊 :已经略有了解了，感觉很海捞不进大厂不改名😡x02-06 15:34百度 后端开发(实习)建议不要脏面评，年后投随便约面北京30坚持无悔意无休 :666又遇到兄弟了我不爱上班啊 :hr是说约年后不进大厂不改名😡x 回复 坚持无悔意无休 :Jasonnnnnnnn02-06 07:35Columbia University Java试一下咯美国10我不爱上班啊 :暂时不考虑了hhh站队站对牛02-05 22:49门头沟学院 机械设计/制造双***历都到顶了江苏10我不爱上班啊 :不是很厉害的9，曾经被嘲过牛客548622592号02-05 20:55Java要不等年后吧，不差这一次吧？？字节那不是投了就能面吗？一定要面这个岗？北京10我不爱上班啊 :打电话也是准备说年后了，年前肯定不行哈哈哈我投的少，我也不知道是不是投了就能面主要怕我面得不好，唉StephenZ_02-05 20:31广东工业大学 Java双9干什么测开广东10我不爱上班啊 :哈哈哈哈哈，准备实习的时间很短很仓促，收到的后端面试不多，想着先有个实习就走了测开我们都在等雨停02-05 19:54门头沟学院 后端工程师熊是什么厂广西10我不爱上班啊 :百度秋招失业人02-05 10:48National University of Singapore 测试开发大胆去面吧 我就是不自信加上没后端实习 秋招大厂只投了测开 现在有点后悔福建30我不爱上班啊 :，不自信加上项目不熟，我感觉会被拷打所以害怕秋招失业人 回复 我不爱上班啊 :没事 不会损失啥 等你真的拿了测开就会像我一样从激动欣喜到焦虑前景我不爱上班啊 回复 秋招失业人 :还有一个就是怕字节脏面评，所以如果接面试肯定也会努力准备一下的如果秋招不满意的话，还能搏一搏春招吧，我身边就有在春招找到不错的岗位的我不爱上班啊02-04 22:20未填写教育信息 测试开发还有就是，emmmm，周围也有面字节的，普遍表示有难度，我觉得我菜

点赞评论收藏

招聘动态

AI网申助手

网申字段一键填写

米哈游2026校园招聘

应届生春招&全年实习生专项

中宏保险

2026 IT LINK 校招项目

滴滴

2026届春季校招

EA China

2026校园新锐招聘计划

网易游戏

26届补招+27届实习

携程集团

全站热榜

创作者周榜

正在热议