关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
4 评论
相关推荐
2025-12-25 13:37
门头沟学院 Java
sneak@0729:标准回答:我期望在广州,但我个人其实对地域选择不敏感,更看重公司的前景和个人长期发展。因此base地具体以公司安排为准 点赞 评论 收藏
分享
2025-12-15 14:25
云南大学 Java 点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 有深度的简历长什么样? #
1419次浏览 28人参与
# 应届生第一份工作最好去大厂吗? #
123307次浏览 1090人参与
# 入职第一天 #
1254次浏览 21人参与
# 工作后会跟朋友渐行渐远吗 #
54732次浏览 401人参与
# 你不能接受的企业文化有哪些 #
1204次浏览 31人参与
# 非技术er求职现状 #
126887次浏览 771人参与
# 实习最想跑路的瞬间 #
107067次浏览 649人参与
# CVTE工作体验 #
17244次浏览 39人参与
# 双非本科的出路是什么? #
192137次浏览 1515人参与
# 帆软软件工作体验 #
8517次浏览 34人参与
# 我的上岸简历长这样 #
756790次浏览 11283人参与
# 秋招感动瞬间 #
111661次浏览 509人参与
# 机械人选offer,最看重什么? #
152170次浏览 789人参与
# 运营/市场/管培生岗位评价 #
28866次浏览 179人参与
# 多益网络求职进展汇总 #
60164次浏览 272人参与
# 上班苦还是上学苦呢? #
317574次浏览 2047人参与
# 为什么那么多公司毁约 #
216871次浏览 1463人参与
# 小米求职进展汇总 #
997300次浏览 6498人参与
# 2023届毁约公司名单 #
234094次浏览 1063人参与
# 秋招想进国企该如何准备 #
119619次浏览 599人参与