首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
算法打工人阿旺
2025-04-13 12:58
中山大学 算法工程师
发布于山东
关注
已关注
取消关注
面试题:为何LoRA初始化B=0而A为高斯分布初
今天老师给大家详细分析一道大厂算法面试真题:为何LoRA初始化B=0而A为高斯分布初始化?供各位同学参考。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
2025-12-06 20:15
陕西理工大学 算法工程师
26校招淘天大模型算法二面
1.介绍自己的项目2.BLEU和ROUGE3.self-attention求内积时为啥除以根号d4.LLM的评估5.介绍下simCSE6.解决tokens不够的问题应该怎么办7.详细介绍下deepspeed(三个stage结合参数回答)8.gpt和llama的区别(模型结构上的)9.PEFT的方式,LORA论文讲一下,对比p-tuning10.LLM训练的时候为什么warmup11.对比学习中的batch size是大一些好还是小一些好(大一些,甚至可以到10k+,为12.了构造好的negative样本)13.了解最新技术一般怎么通过什么渠道14.代码题:lc347 前 K 个高频元素
查看13道真题和解析
点赞
评论
收藏
分享
2025-12-01 00:10
北京大学 算法工程师
美团大模型应用秋招一面
1. 实习项目问的很细,数据构造,微调参数等2. 如果子agent回复不对怎么办?反思?跳不出去怎么办?限制次数3. LORA和全参数微调的区别4. DPO,PPO,GRPO5. 逻辑回归、XGB和神经网络的区别6. XGB怎么做特征重要性的?gini系数是什么?7. Deepseek MLA?为什么压缩?8. Transformer encoder?为什么需要FFN?9. AUC物理意义,公式,公式含义code:重排链表
查看10道真题和解析
点赞
评论
收藏
分享
2025-12-18 09:20
北京大学 算法工程师
字节大模型校招二面面经
实习介绍——5min项目相关细节提问——5min1. 了解 DeepSpeed 吗?训练时用 ZeRO 优化主要是解决啥问题?ZeRO 的三个阶段分别都是啥?2. TP 或 PP 了解吗?3. 并行训练时,如果模型参数量不大,怎么决定用 PP 还是 TP 策略?它们各自有啥好坏?4. 如果用 TP=2 的策略,self-attention 层里的 QKV 矩阵具体是怎么切分的?5. 用 TP 的时候,主要会发生哪些通信?不同的切分方式会改变通信行为吗?举个例子呗。6. 讲讲 Flash Attention 的原理,矩阵 tiling 的过程说细一点,最好把 shape 也讲清楚。手撕算法:经典接雨水+最长上升子序列
点赞
评论
收藏
分享
2025-12-18 06:25
上海交通大学 算法工程师
腾讯混元大模型二面-秋招面经
1.自我介绍,过实习和论文2.知道哪些强化学习算法,除了 PPO和 DPO 这些呢3. 知道 LoRA 的原理吗, A 和 B 两个矩阵怎么初始化,有了解过其他的初始化方法吗4.除了 DeepSpeed ,还用过其他的什么优化方法吗5.ZeRO -1, ZeRO -2,ZeRO -3三个模式的区别6.讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗7.当时你用 DeepSpeed ZeRO -3来微调Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存8. 在微调 Qwen 的时候,数据是怎么构造的9.代码:无重复字符的最长子串
点赞
评论
收藏
分享
2025-12-18 17:25
山东大学 算法工程师
阿里实习大模型算法一面
1. Encoder与Decoder中注意力机制存在哪些差异?2. 注意力机制的计算流程是怎样的,为何在计算时要除以根号下Dk,掩码注意力机制又是怎样达成的?3. 阐述GQA、MQA、MLA的原理分别是什么。4. 位置编码的必要性体现在哪里,为何选用sin_cos函数进行位置编码?5. 询问之前实习中Agent的设计思路,以及所提创新方法的实现方式。6. 提及使用DeepSpeed开展SFT训练,请说明DeepSpeed ZeRO Stage 1 - 3的不同之处,以及何种情况下使用FSDP更为合适。7. 询问Agent工具的设计情况,是否采用workflow形式。8. 了解哪些Agent开发框架,像langchain和LlamaIndex,它们的核心应用场景有何区别?9. 针对数据输入输出格式,为保证大模型输出稳定json格式,采取了哪些措施?10. 若Agent推理API需要低延迟响应,会从哪些方面开展系统级优化工作?11. 代码考察:给出LeetCode第34题,在排序数组中查找元素的第一个和最后一个位置
点赞
评论
收藏
分享
一键发评
为何A要用高斯
接好运
沾沾喜气
B为0有啥特殊
大厂真题好难
评论
点赞成功,聊一聊 >
点赞
3
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
为什么你的实习是“无效实习”?又该如何做
4411
2
...
都 2026 年了,还在神话 AI Agent开发吗?
3296
3
...
千里智驾毁约
2287
4
...
简历求锐评,211硕士找实习
1857
5
...
uu们,面试的时候一定要大大方方的啊!
1857
6
...
帕斯亚科技UE客户端面经
1809
7
...
双非终于上岸了!!!!
1792
8
...
据说字节实习大涨薪,非技术都涨到350了
1751
9
...
2025找工年终总结
1551
10
...
25届试用期被迫离职
1466
创作者周榜
更多
正在热议
更多
#
你不能接受的企业文化有哪些
#
528次浏览
13人参与
#
应届生第一份工作最好去大厂吗?
#
122872次浏览
1078人参与
#
有深度的简历长什么样?
#
289次浏览
4人参与
#
非技术er求职现状
#
126770次浏览
769人参与
#
26年哪些行业会变好/更差
#
149次浏览
5人参与
#
工作后会跟朋友渐行渐远吗
#
54626次浏览
398人参与
#
CVTE工作体验
#
17110次浏览
39人参与
#
帆软软件工作体验
#
8466次浏览
34人参与
#
双非本科的出路是什么?
#
191615次浏览
1514人参与
#
运营/市场/管培生岗位评价
#
28825次浏览
179人参与
#
百度工作体验
#
297607次浏览
2214人参与
#
春招前还要继续实习吗?
#
13992次浏览
151人参与
#
对2025年忏悔
#
11417次浏览
194人参与
#
搜狐工作体验
#
2799次浏览
22人参与
#
秋招感动瞬间
#
111626次浏览
507人参与
#
每个月的工资都是怎么分配的?
#
81874次浏览
666人参与
#
一人说一家双休的公司
#
16693次浏览
170人参与
#
应届生,你找到工作了吗
#
98088次浏览
598人参与
#
你实习是赚钱了还是亏钱了?
#
97414次浏览
585人参与
#
非技术2024笔面经
#
452899次浏览
4922人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务