6逼,速通
点赞 评论

相关推荐

一、自我介绍二、实习相关八股1. 实习业务场景负责大模型对话对齐、指令微调、强化学习优化,提升模型生成准确性、合规性与指令遵循度,落地垂类对话/问答业务。2. SFT数据筛选、采样及处理3. 选择GRPO的原因、优化目标及数学原理- 选型原因:相比PPO显存占用低、无需价值网络、训练更稳定,对齐效率高- 优化目标:最大化模型生成优势,约束KL散度防止策略突变- 原理:分组优势归一化、截断策略比率、近端约束,降低训练方差4. 奖励函数设计(重点)围绕有用性、准确性、合规性、流畅性设计,分维度打分;加入KL惩罚,避免单一奖励过拟合,区分正负奖励权重。5. 判断RL训练质量达标方法- 奖励值收敛、KL散度稳定;- 离线评测:指令遵循率、幻觉率达标;- 人工抽检生成内容,无退化、无套路化输出6. 是否遇到Reward Hacking遇到过,模型生成空洞话术、固定模板刻意刷高奖励值。7. 其他奖励作弊类型刻意迎合奖励规则、答非所问、重复安全话术、回避核心问题、策略坍缩同质化输出。8. PPO和DPO了解- PPO:在线强化学习,近端策略优化,带价值网络,训练复杂度高- DPO:离线偏好优化,基于成对偏好数据,无需交互采样,训练简单稳定三、基础八股1. Attention计算时间复杂度标准自注意力:O(n²d)(n为序列长度,d为特征维度)2. KV Cache原理推理时缓存历史token的KV矩阵,避免重复计算,降低算力开销,提升推理速度。3. GQA、MLA原理- GQA:分组查询注意力,Q分组共享KV,平衡推理速度与效果- MLA:融合局部+全局注意力,适配长上下文,降低显存占用4. vLLM原理基于PagedAttention分页管理KV Cache,提升显存利用率,支持高并发推理。5. Flash Attention原理分块计算注意力,优化显存IO,减少HBM访问,提速同时降低显存开销。6. 稀疏注意力原理仅计算局部/关联token注意力,舍弃全局无关token,将复杂度降至O(n),适配长文本。7. 模型推理慢排查思路检查序列长度、batch大小;确认KV Cache、量化、FlashAttention开启;排查GPU显存、算子优化问题。四、编程题1. rand7()实现rand10()拒绝采样:rand7()*rand7()生成1-49数,保留1-40,映射为1-10,超出则重新生成。2. 浮点数组取整最小变化和贪心思路:每个数选上/下取整中差值更小的,累加最小总误差。3. 最长无重复子串
查看19道真题和解析
点赞 评论 收藏
分享
一共三面,最后似乎被砍hc了,过了两个月有hc了又给我打过一次电话,但已入职遂拒timeline:25.10.13一面-25.10.14二面-25.10.15 hr面一面-25.10.13 44min mt面自我介绍建模流程特征处理模型评估指标介绍简历与项目等面试官指出在回答问题的时候要有框架,我在回答的时候有点太细节了预测模型效果提升后对业务有什么价值所提到的几种机器学习方法优化的目标和损失函数sql水平,如何保证取出来的数是正确的面试过程中告知一面通过,二面主管需要更框架的回答二面-25.10.14 58min 主管面自我介绍(从与岗位的匹配度以及自身的优势等介绍)对自己挑战最大/最能体现自己优势的一个项目介绍如何保证数据填充的合理性(因为我上一个讲的相关的东西)如何向一个完全不懂的人介绍条件扩散模型为什么上一家实习只有3个月一个简单的sql题(但是很久没搞,基本乱答)(然后就一直揪着我sql的事...对sql怎么规划学习,一周时间怎么达到一个有一年经验的数据分析师的sql水平(无语)日常对ai的应用智商题:两个人分10w,通过什么方式会更公平反问:实习生培养机制两个小时后告知通过hr面-25.10.15 12min自我介绍对企业和这个岗位的理解课程/实习时间项目是自己做的还是在上一家公司做的,为什么想要做这个贝壳这个实习会有多少帮助在校有没有参加社团、兴趣爱好基本聊天---------分割线:-----------后面再更新一些去年10月份和今年暑期面试的面经攒一下人品
查看23道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务