快 STAR 大模型应用面经

一开始会以为问的很难,然后还是集中在项目,八股也比较常见,虽然问的还挺深,我没答出来很多。
1. 先写题,dp, 两个字符串最长子序列
2.自我介绍
3. 挖项目挖了很久
4.peft 微调介绍一下
5. 常见的位置编码介绍一下
6.transformer 的 decoder 和 llama 有啥区别
7. 他们的位置编码有啥区别? 三角函数位置编码和 ROPE 公式很像啊,他们是怎么实现不同的功能?(一个加 embedding 一个加 KQV,但是公式很像但是推理完全不一样吧,不太会答)
8. ADAM 比 SGD 优化在哪里(不会,没背这块)介绍一下梯度下降
9. 回归任务常用的 LOSS(我还搞成了自回归,然后说现在大模型都是用交叉熵。。。后面反应过来说离散分类任务交叉熵,连续值用 MSE)然后问我二分类用什么,我说 BCE。
10. 用 ADAM 的话,怎么预估 SFT 的显存占用?(这个问题好高频啊,感觉现在很喜欢问这种预估显存占用的问题。。。,我也没怎么回答,不太会)
时间太久了,就随便反问了一下。
全部评论
当作面试一样回答一下这些问题: 1. 子序列两层for循环,if s[i] == s[j]: dp[i][j] = dp[i - 1][j - 1] + 1 else : dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]) 2. xx 3.xx 4. lora, p tuning v1 v2, adapter tuning, prefix tuning. 5. 绝对,相对位置编码, Rope旋转位置编码 6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同) 7. 不知怎么答 8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差) 9. 交叉熵损失 10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了) 欢迎补充点评
3 回复 分享
发布于 2024-08-14 14:32 广东
这个确实强
2 回复 分享
发布于 2024-08-10 10:32 江苏
大佬真厉害
2 回复 分享
发布于 2024-08-10 09:00 江苏
还问了 attention 公式,为什么要除以根号 dk,为什么会发生梯度消失或者梯度爆炸?(就是经常被问但是答不好)
2 回复 分享
发布于 2024-08-08 01:56 江西
Adam结合了动量和RMSProp,可以对参数进行自适应的学习率调整,训练初期收敛更快。SGD需要手动调整学习率,在最小值平坦区域收敛变慢(摘抄自CSDN)
1 回复 分享
发布于 2024-08-19 16:24 北京
参加的都是大神云集
1 回复 分享
发布于 2024-08-10 16:13 江苏
周五也要面快star了
1 回复 分享
发布于 2024-08-07 21:43 北京
佬很厉害了,能求个快star进面的bg么
点赞 回复 分享
发布于 2024-08-09 09:25 浙江
八股还是要好好准备,一知半解不太行,被挂了。
点赞 回复 分享
发布于 2024-08-08 15:27 河南
是线上IDE还是本地呢,题目的话是会给图片还是念呢
点赞 回复 分享
发布于 2024-08-08 10:30 北京

相关推荐

05-22 19:46
已编辑
清华大学 算法工程师
看到京东TGT的话题,想到五一节前在学校参加了一次京东组织的技术沙龙,那次活动就预告过京东会启动一个头部技术人才项目,现在终于官宣了哈哈哈。当时我的感受是整场活动技术浓度超标,更惊喜的是,在现场看到了京东零售供应链算法团队的大佬戚永志老师、还有之前通过京东DMT入职的清华学长,这场沙龙里给我更感动的点是,同学的提问都被详细回答了,真的收获远超预期。说到戚老师,我印象中他带领的团队获得了“INFORMS 奖” ,当时听到他分享的案例挺深刻的,也展示重大课题落地成果,只能说大佬就是大佬,自由交流的时候也有幸和戚老师聊了一会儿,老师真的是没有什么架子,非常开放坦诚地和我们聊了很多技术问题和行业的思考,还是挺大开眼界的。另外一位比较有亲切感的是清华学长高博士,他是从京东DMT项目入职的管培生(貌似TGT的前身就是DMT项目?),他谈到初入职场时参与的人工智能仓储项目,以及如何从底层算法优化一步步推动业务场景落地时,我也看到了一条清晰的技术人才成长路径。更让我触动的是他提到的DMT项目这个兼顾学术深度与产业实践的培养体系,让我意识到京东对技术人才的长线投资诚意,对今年的京东TGT项目更期待了。其实在参加沙龙时,我也留意到大佬们多次隐晦提及一个即将官宣的技术项目,直到5月初京东正式发布TGT,我才突然意识到原来那场沙龙里的卖关子,算不算是京东对技术人发起的提前邀请呢?这场分享讲真的,我感受到京东在供应链技术领域的 “国家队” 实力了。这次活动分享的很多课题我觉得挺新的,角度也比较不一样,对京东的了解也加深了挺多,会后我还搜了一下京东居然已经71w员工了,我觉得京东确实是从企业角度关心了广大劳动者,敬佩!哦对,现场还能抽PS5,也有小茶歇和人手一份的京东小狗伴手礼,也算是很有诚意了吧,虽然大奖上本中奖绝缘体基本上没指望过。后面还有好几场,包括北大、南大、哈工大这些,好像还有国外场次,如果是和我一样在观望TGT项目的,真的很建议大家去听听看,和大佬或者项目HR聊聊,还是能对TGT有更深度的了解吧(而且万一抽走PS5呢)。
没事儿早点睡a:居然刷到清华✌️
京东公司氛围 259人发布 投递京东等公司9个岗位
点赞 评论 收藏
分享
评论
24
70
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务