百度文策大模型二面面经分享

给我面没招了,感觉自己好菜、面试很难,还是要多多练习
1.项目拷打
2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?
3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?
4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?
5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?
6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?
7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?
8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?
9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。
10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?
11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?
12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?
13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?
14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?
15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?
16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?
17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?
18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?
19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?
20.大模型出现复读机现象通常由哪些因素导致?
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 昨天 09:23 广东

相关推荐

钱嘛数字而已:拖拉机被发明出来之后,就不需要农民了吗?农民还是需要的,但不需要这么多了,另外对农民的要求也变高了,需要会开拖拉机。
点赞 评论 收藏
分享
03-20 15:48
吉林大学 Java
Q1: (2:09) 简单介绍一下你自己。Q2: (3:22) 解决长耗时阻塞是怎么样的一个场景?解决思路是什么?Q3: (5:36) 引入Redisson分布式锁的目的是为了解决重复上传的问题吗? 讲讲Q4: (6:22) 分片上传和断点续传是怎么实现的?Q5: (9:03) 项目中用过RocketMQ的哪些特性?Q6: (11:22) 线程池在项目里大概是怎么用的?有哪些核心参数?Q7: (12:06) 任务提交到线程池时,它的一个执行流程是怎么样的?Q8: (13:15) 线程池默认的阻塞队列有多长?Q9: (13:27) MySQL常用的引擎有哪些?Q10: (13:59) MySQL大概有哪些索引类型?Q11: (14:23) 什么是联合索引?你是怎么用的?Q12: (15:30) 在规避回表的情况下,真实写SQL时应该怎么写?Q13: (16:07) 简单聊一下什么是乐观锁?项目中如何解决支付回调并发问题?Q14: (18:27) 理解CAS中的ABA问题吗?如何规避这种情况?Q15: (19:55) 说一下SQL优化的大概流程。Q16: (24:14) 简单讲一下Spring的IOC和AOP。Q17: (26:46) 在Spring使用过程中会用到哪些Bean生命周期的接口?Q18: (27:23) 设计模式有没有了解过?Q19: (27:36) 目前在哪里?能接受来____实习吗?实习时长大概有多长?Q20: (29:33) 你有什么爱好?为什么喜欢听摇滚?反问。拷打过于基础,全程无压力。放空大脑,再多吟唱一遍八股,面试时间就会流过去十分之一罢。面经 我的找工作日记
查看20道真题和解析
点赞 评论 收藏
分享
发一下问题给大家参考,攒攒人品!1 项目拷打2. 在 Agent 多轮对话任务中,Attention 的局限性具体体现在哪些方面?3. 简要介绍 SFT 的核心流程,以及如何制定数据集的构建策略?4. SFT 之后常见的 Post-Training还有哪些?它们各自的设计目的是什么5. 什么是RAG它提升生成质量的核心原理是什么6.RAG与传统的检索 + 模型生成流程有何不同7.如何构建评估体系来验证一个RAG系统是否真正Work?8.PPO和DPO在对齐阶段的主要区别是什么?9. 在进行DPO训练时,通常有哪些关键的注意事项?是否了解过GRPO10.在Modular Agent中,多步规划是如何实现的?11.针对多个工具的调用链路,你的调度策略是如何设计的12. Agent 评估体系包含哪些核心维度?如何量化衡量Planning能力与Hallucination Rate )?13.在微调Qwen模型时,你是如何确定训练阶段和 Loss Function的?14. Prompt自动推荐模块应用了哪些优化策略?是否尝试过Prompt压缩或Embedding表示的方式?15.假如Agent推理链路包含3个工具且请求频率极高,导致系统整体延迟较高,你会从哪些维度进行优化?17.在记忆系统中,意图识别 承担什么职责?18.Embedding的维度选择(如 1024 维)是基于什么逻辑?为什么不选择更高或更低的维度?19.Qwen-4B的Embedding是如何实现的?其模型框架是否属于 BERT 系列?20.Qwen-34B的Rerank是如何实现的?21.Attention机制中的Q, K, V矩阵具体是如何通过输入变换得到的?22.Attention公式中除以根号d_k的作用是什么?如果不除以它,是否有其他替代方案?23.请详细解释Multi-Head Attention ,并指出它目前存在的主要问题24. 如何解决多头注意力机制计算开销过大的问题25. 什么是 RoPE ?它核心解决了什么问题?26. 在 Memory  系统中,如果输入文本过长,常见的工程处理策略有哪些?
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务