百度

收藏
企业服务
10000人以上
上市
北京
学历友好榜高校必争榜offer比较常胜榜校招高薪榜牛客指数榜
查看官网
上传简历
职位类型
全部
后端开发
前端开发
客户端开发
测试
数据
更多
最新
热门
03-24 13:35
门头沟学院 Java
攒攒人品!有面试过同岗的朋友欢迎评论区交流1.实习拷打2.项目拷打3.你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过另一种方案?4.Agent 任务是怎么拆分的?拆分粒度是怎么决定的?5.上下文是怎么构建的?你们怎么避免上下文过长或者信息污染?6.如果上下文窗口不够,你优先保留哪些信息?为什么?7.你们做代码理解的时候,AST、调用关系这些信息是怎么用起来的?8.单测生成里,哪些代码其实不适合生成单测?你们是怎么识别并过滤的?9.覆盖率高但测试质量很差,这种情况你见过吗?你们是怎么解决的?10.mock在单测里什么时候是必须的?什么时候反而会带来问题?11.如果一个函数依赖数据库和RPC,你怎么让模型生成的单测还能稳定运行?12.你们怎么评估生成单测的质量?除了覆盖率,还有哪些指标?13.LLM的输入到底是什么?模型真正看到的是什么?14.self attention的核心作用是什么,为什么要拆成 QKV?为什么attention 可以建模长距离关系,15.为什么需要multi-head为什么 attention可以看成动态加权16.同一个 token的 Q、K、V 为什么不一样?17.attention复杂度很高,如果上下文特别长,你会怎么优化?18.模型产生幻觉的时候,一般是什么原因?工程上有什么办法降低19.Python有多线程吗?GIL 是干什么的?什么时候多线程是有用的?20.讲一下C++从源码到可执行文件的流程。21.手撕:给定数组的区间中位数之和:给定一个长度为n的数nums,一个区间 [l, r] 的 中位数 为:如果区间长度是奇数:排序后中间的数,如果是偶数:排序后靠左的那个数,要求:计算所有子数组的中位数之和
点赞 评论 收藏
分享
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
攒攒人品!有面试过同岗的朋友欢迎评论区交流1.项目拷打2.项目中实际 QPS、延迟、数据规模是多少?瓶颈在哪,怎么解决的?3.讲一个你做过的技术选型,为什么选它?有没有更优方案?4.设计一个支持多轮对话+工具调用的 Agent,整体架构怎么拆?5.Prompt 如何设计才能降低 hallucination?有哪些工程手段?6.多轮对话中上下文过长怎么处理?裁剪策略有哪些?7.Agent 调多个工具时,如何做调度、重试和兜底?8.function calling / tool calling 的实现原理是什么?9.一条 query 在 RAG 系统中的完整链路是怎样的?10.BM25 和向量召回各自优缺点?线上如何融合?11.embedding 模型选型时要考虑哪些指标?12.query rewrite / 多 query 扩展的原理是什么?有什么风险?13.rerank 模型为什么必要?一般放在哪一层?14.HNSW 的核心结构是什么?为什么查询效率高?15.IVF、PQ、HNSW 的区别和适用场景?16.向量索引如何支持高并发查询和在线更新?17.embedding 维度过高会带来什么问题?如何优化?18.文档 chunk 如何切分?长度和重叠怎么设计?19.如何解决 chunk 切分带来的语义断裂问题?20.知识库如何做增量更新并保证一致性?21.多模态数据(图文/表格)如何统一建索引?
点赞 评论 收藏
分享
03-24 06:35
门头沟学院 Java
给我面没招了,发点面经攒攒人品~1.项目拷打2.提示词模板是怎么设计和迭代的?你怎么判断一个模板是真的更好了?3.你们的 Agent 是单 Agent 还是多 Agent?为什么这么设计?有没有考虑过另一种方案?4.Agent 任务是怎么拆分的?拆分粒度是怎么决定的?5.上下文是怎么构建的?你们怎么避免上下文过长或者信息污染?6.如果上下文窗口不够,你优先保留哪些信息?为什么?7.你们做代码理解的时候,AST、调用关系这些信息是怎么用起来的?8.单测生成里,哪些代码其实不适合生成单测?你们是怎么识别并过滤的?9.覆盖率高但测试质量很差,这种情况你见过吗?你们是怎么解决的?10.mock 在单测里什么时候是必须的?什么时候反而会带来问题?11.如果一个函数依赖数据库和RPC,你怎么让模型生成的单测还能稳定运行?12.你们怎么评估生成单测的质量?除了覆盖率,还有哪些指标?13.LLM 的输入到底是什么?模型真正看到的是什么?14.self attention 的核心作用是什么?为什么要拆成 QKV?为什么 attention 可以建模长距离关系,15.为什么需要 multi-head为什么 attention 可以看成动态加权16.同一个 token 的 Q、K、V 为什么不一样?17.attention 复杂度很高,如果上下文特别长,你会怎么优化?18.模型产生幻觉的时候,一般是什么原因?工程上有什么办法降低
点赞 评论 收藏
分享
感觉自己好菜、面试很难,还是要多多练习,感觉自己说不明白业务逻辑1.提示词模板(PromptTemplate)的设计原则是什么?在复杂任务场景下如何设计可复用、可扩展的Prompt结构?如何评估Prompt对模型输出质量的影响?2.在Agent架构中,单Agent与多Agent的设计权衡是什么?多Agent系统中任务如何拆分?子Agent之间如何进行协作、通信与状态管理?3.分支覆盖率(BranchCoverage)的统计原理是什么?代码覆盖率工具是如何通过代码插桩(Instrumentation)实现覆盖率统计的?编译期插桩和运行期插桩有什么区别?4.在代码生成或自动单测生成场景中,代码解析是否需要前置静态分析?如何利用AST、CFG或数据流分析判断生成测试用例的有效性?5.如果需要优化代码测试覆盖率相关指标(如分支覆盖率、路径覆盖率、MutationScore),你会如何设计自动评估与优化策略?6.在自动生成单元测试的过程中,哪些类型的代码结构会显著降低模型生成测试用例的准确率或覆盖率?如何设计规则或模型来过滤无法自动生成单测的代码?7.对于AST和LSP无法正确解析或分析的代码结构,如何设计降级策略或fallback机制?8.在自动生成单测时,Mock机制是如何实现的?Mock框架底层是如何拦截函数调用或依赖注入的?9.多维度查询改写(QueryRewriting)通常包括哪些维度?在用户查询信息不足时,如何设计交互机制让用户参与补充信息?
点赞 评论 收藏
分享
03-23 22:51
深圳大学 Java
Baidu 后台开发实习一面(30min)1.主要业务用Go,他对Go就没啥好问的(……)我说对Go会基本使用,对比较深的不了解2.MySQL有用到索引?那么你在项目里是怎么使用的?3.聚簇索引?二级索引?以及它们的区别?4.说一下覆盖索引?如何去建立一个这样的覆盖索引?5.给了一个SQL语句(Select * from table where a=1 and b<1 and c=2 order by d desc),问如何建立覆盖索引?6.乐观锁?乐观锁的具体怎么操作?CAS是改值还是++?7.Redis在秒杀和超卖这个场景是怎么利用的?Lua脚本中的命令你可以举一些吗?8.浏览器输入一个url到浏览器渲染出页面的一个完整过程?9.得到IP地址后,假设现在有多个服务,比如登录服务,后端服务。如何根据这个ip知道具体是哪个服务?10.http的常用状态码?2xx?3xx?4xx?5xx?无手撕Baidu 后台开发实习二面(40min)主要就是问我实习的事情,实习讲清楚干了啥,然后是问实习中遇到的困难,和该怎么去处理。1.提到了我多级缓存的一致性问题该怎么解决。写请求是如何保证一致性的?为什么要用多级缓存?2.遇到缓存击穿问题该怎么解决?然后项目中库存超卖,一人一单的实现流程?2.场景题:商业化下Redis做缓存,遇到缓存击穿问题该怎么解决?除了Redis做缓存,redis的成本是比较高的?还有没有别的手段和方法去处理?3.对当前ai快速变化的看法?ai开发占你开发的百分比?4.实习的时候如果遇到mentor和leader给你大量并行的任务,你会怎么去安排任务的执行情况,如果遇到能力不足的任务,该怎么去沟通交流?5.职业规划?6.手撕:两数之和
查看16道真题和解析
点赞 评论 收藏
分享
攒人品中,祝大家都能拿到满意的Offer!1.实习拷打2.工业 PDF 解析中,复杂版面(多栏、表格、图文混排)如何做版面理解并还原结构?3.OCR 结果有噪声或错误时,你是怎么做纠错或提升解析质量的?4.多模态检索中,图像和文本向量不在同一空间时,如何实现对齐?5.Agent 中长短期记忆如何设计?各自存什么,怎么触发读取?6.多轮对话中,如果不同轮次的记忆发生冲突,你如何处理?7.用户情绪异常(投诉、愤怒)时,Agent 如何在不中断主流程的情况下进行干预?8.长文档为什么一定要切 chunk 再做向量化?不切会有什么问题?9.chunk 切分时为什么要有重叠区域?比例一般怎么确定?10.稠密向量和稀疏向量的区别是什么?各自适合什么场景?11.是否做过关键词召回和向量召回的融合?具体怎么做的?12.向量检索中 Top-K 设置过大或过小分别会带来什么问题?13.余弦相似度和欧氏距离在高维空间中的差异是什么?实际怎么选?14.为什么需要 rerank 模型?它解决了向量召回的哪些问题?15.rerank 之后的截断策略是怎么设计的?为什么选这个 K 值?16.文档发生局部更新时,如何做增量索引而不是全量重建?17.RAG 中如果没有召回到相关知识,如何约束模型避免胡编?18.HyDE 在 query 模糊时是如何提升召回效果的?19.超长上下文模型出现后,RAG 架构的必要性是否会下降?
点赞 评论 收藏
分享
分享我的面试经验
模拟面试
真实面试体验,快速补齐短板
应聘感受
暂无应聘感受
牛客网
牛客网在线编程
牛客网题解
牛客企业服务