关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
3 评论
相关推荐
牛客热帖
更多
正在热议
更多
# 我的实习收获 #
31750次浏览 504人参与
# 我的租房踩坑经历 #
29738次浏览 291人参与
# 实习吐槽大会 #
34237次浏览 161人参与
# 2025牛客秋招季 #
4946次浏览 148人参与
# 晒一晒你的工位 #
86204次浏览 306人参与
# 穿越回高考你还会选现在的专业吗 #
22584次浏览 268人参与
# 26届秋招投递记录 #
4176次浏览 112人参与
# 双非能在秋招上岸吗? #
215288次浏览 1143人参与
# 毕业旅行去哪玩儿 #
1299次浏览 33人参与
# 移动求职进展汇总 #
1566次浏览 17人参与
# 如果有时光机,你最想去到哪个年纪? #
47228次浏览 800人参与
# 非技术岗简历怎么写 #
209858次浏览 2861人参与
# 求职遇到的搞笑事件 #
113098次浏览 768人参与
# 打工人锐评公司红黑榜 #
146141次浏览 920人参与
# 找工作有哪些冷知识 #
97810次浏览 1380人参与
# 携程求职进展汇总 #
533313次浏览 3989人参与
# 商战,最累的是我们 #
13128次浏览 52人参与
# 我和mentor的爱恨情仇 #
44064次浏览 278人参与
# 第一份工作应该选高薪还是热爱? #
61630次浏览 561人参与
# 大疆工作体验 #
11512次浏览 73人参与