滴滴大模型算法校招一面
1.八股:Transformer 中为何使用 LayerNorm 而非 BatchNorm?这对大模型训练稳定性有何影响?
2.八股:Transformer里 LayerNorm 放在 Attention 前还是后?有什么区别?
3.八股:LoRA 的核心思想是什么?它为什么能显著降低大模型微调的显存和计算开销?
4.项目:请介绍一下你的项目:目标是什么?用了什么基座模型?数据从哪来?
5.项目:你在项目中使用 LoRA 微调 LLM,请说明你设置的rank、alpha 值,并分析它们对性能和收敛速度的影响。
6.项目:训练 SFT 模型时 loss 出现剧烈震荡,你是如何诊断并解决的?
7.项目:SFT 阶段如何避免对padding token计算 loss?具体在代码中如何实现mask?
8.项目:SFT的调参经验?说说你的经验
9.项目:训练过程中显存不够,你用了哪些技巧(如 gradient checkpointing、ZeRO)?
10.代码题:LeetCode 121. 买卖股票的最佳时机
2.八股:Transformer里 LayerNorm 放在 Attention 前还是后?有什么区别?
3.八股:LoRA 的核心思想是什么?它为什么能显著降低大模型微调的显存和计算开销?
4.项目:请介绍一下你的项目:目标是什么?用了什么基座模型?数据从哪来?
5.项目:你在项目中使用 LoRA 微调 LLM,请说明你设置的rank、alpha 值,并分析它们对性能和收敛速度的影响。
6.项目:训练 SFT 模型时 loss 出现剧烈震荡,你是如何诊断并解决的?
7.项目:SFT 阶段如何避免对padding token计算 loss?具体在代码中如何实现mask?
8.项目:SFT的调参经验?说说你的经验
9.项目:训练过程中显存不够,你用了哪些技巧(如 gradient checkpointing、ZeRO)?
10.代码题:LeetCode 121. 买卖股票的最佳时机
全部评论
相关推荐
点赞 评论 收藏
分享
查看2道真题和解析