字节 腾讯 小红书 一面面经 + 字节二面 + 字节 hr 面(已oc)

3.5 晚更新 (已oc)

===========================================

3.5 更新

字节 昨天约了 hr 面

总时长:20min

问了实验室的一些情况,问能不能推荐同门给他们,问了入职时间和 base 地点

反问:landing机制,鼓不鼓励学术成果,转正率(保密,只说了些笼统的要求)

ps. 小红书上看到很多 hr 面挂的,很慌,故在此作此记录

============================================

3.3 更新

字节 上周五约了今天的二面

总时长:1h15min

问实习时间,什么时候能到岗,老师管不管

介绍简历项目,( 我讲 -> 面试官提问 -> 我答 )循环 x N,大约 40 min

八股:LLaVA 怎么实现的多模态,LLaMA的架构、训练数据,BLIP、CLIP,BLIP2(Q-Former)

场景题:好的图像和差的图像如何用多模态大模型去分析差异并能给出优化意见,最好不要引入人工标注进行微调

(场景题有点尴尬,没答出来

code:两个 list 求交集( 例:l1=[1,2,3,3,4],l2=[3,3,5,3,4],ans 为 [3,3,4] )

=============================================

腾讯

投递2.21

一面2.24

简历上四个项目细问了两个,深挖了 50+min

八股:大模型幻觉问题,DPO、PPO,MHA的作用

code:lc300 最长递增子序列

小红书

投递2.21

一面2.26

同样是简历上的项目细问了两个,深挖了 50min,没问八股

code:lc15 三数之和

字节

投递2.24

一面2.27

简历上的项目细问了三个,也是深挖了 50min

问了问了不了解 blip 和 clip

code:lc200 岛屿数量

ps. 准备了好久的八股,但是基本都没怎么问八股

全部评论
mark
点赞 回复 分享
发布于 2025-03-13 09:43 湖北
佬是两轮技术面后直接就hr面了吗
点赞 回复 分享
发布于 2025-03-12 11:33 海南
mark了,佬字节技术面就两次嘛
点赞 回复 分享
发布于 2025-03-05 22:39 广东
学长xhs哪个部门呢
点赞 回复 分享
发布于 2025-03-04 17:55 上海
mark
点赞 回复 分享
发布于 2025-03-02 10:13 北京
mark了
点赞 回复 分享
发布于 2025-03-01 23:48 北京

相关推荐

一面: 1. 自我介绍,讲论文和实习。2. Transformer自注意力机制、位置编码、梯度消失/爆炸的解决方案。3. 微调方法对比(Full Fine-tuning vs. LoRA/Adapter/P-Tuning)。4. 推理加速技术(量化、动态批处理、FlashAttention)。5. 如何优化大模型在长文本生成中的显存占用?6. RLHF中奖励模型(RM)的训练数据如何构建?7. 为网易云音乐设计一个AI歌词生成系统,如何提升创意性和押韵效果?8. 模型剪枝/量化(GPTQ、AWQ)、服务化框架(FastAPI+vLLM)。9. 如何解决大模型API服务的响应延迟问题?一面八股挺多的,问的知识点也非常多,主要考察对大模型的理解,整体来说难度不算大,复习熟记八股应该都比较好答。二面:1. 自我介绍,讲论文和实习。2. LayerNorm和BatchNorm在大模型中的区别?为什么Transformer用LayerNorm?3. 解释大模型训练中的“灾难性遗忘”现象及解决方法。4. 如果微调后的模型过拟合,你会如何调整?5. 如何评估一个对话系统的生成质量?6. 如何用大模型提升网易新闻的推荐效率?7. 设计一个游戏内AI陪玩系统,需考虑哪些模块?8. 领域适配时,如何构建高质量的垂域训练集?9. 你在项目中如何解决数据稀缺问题?10. 模型上线后遇到了什么性能瓶颈?如何优化的?建议:精读《Attention Is All You Need》、HuggingFace文档。如果没有大模型项目,可用Kaggle/开源项目复现(如LangChain应用)。
查看18道真题和解析
点赞 评论 收藏
分享
发点面经攒攒人品1、你在线上或离线训练时,过拟合怎么处理?直接说你最有效的三个方法和拿到的收益。2、把 BN 讲透:原理是什么;训练期和推理期用的统计量有何不同;跟 LN、GN 比,分别什么时候用、怎么取舍。3、分类和回归你最常用哪些损失?你更偏好哪几个,为什么(从鲁棒性、梯度、数值稳定性上谈)。4、L1 和 L2 正则你怎么选?它们各自的效果与风险是什么,工程里你是怎么权衡的。5、二元和多分类的交叉熵你怎么写?在工程里你怎么做数值稳定实现。6、AUC 到底在统计上代表什么?你怎么计算它,在线上业务里你如何解释“这次 AUC 提升”的含义。7、你做 CTR/CVR/CTCVR 联合建模时,ESMM/ESMM2 是怎么推导与工程落地的?线上到底带来了什么收益。8、Transformer 里因果注意力的 Q/K/V 各从哪来?Mask 具体怎么实现。9、Scaled Dot‑Product Attention 为啥要除以 √dk?如果不除会出什么数值或训练问题。10、把 Transformer / Decoder‑only 的整体结构过一遍,各个组件分别在干什么,有哪些常见变体。11、位置编码这条线你怎么选:绝对 PE、相对 PE、RoPE 各自的思路、优势和局限,结合你的项目谈取舍。12、长上下文怎么搞?Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力,你的实战方案是什么。13、KV Cache 在训练和推理中的差异是什么?它的加速价值有多大,吞吐与延迟你是如何权衡的,vLLM/paged‑attention 需要注意什么。14、PEFT 方案里(LoRA/QLoRA/Prefix/Prompt‑Tuning/Adapter)你怎么选?说说稳定训练的经验。15、SFT 和对齐(RLHF/DPO/IPO/PPO)原理差在哪?在不同数据与资源条件下,你怎么选路线。16、RAG 系统你怎么设计?切分、索引、召回/重排、压缩/融合、兜底策略怎么串。17、提示词工程你是怎么搞的?System/角色/约束/分步指令怎么写,如何防越狱
查看17道真题和解析
点赞 评论 收藏
分享
评论
17
52
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务