关注
当作面试一样回答一下这些问题:
1. 子序列两层for循环,if s[i] == s[j]:
dp[i][j] = dp[i - 1][j - 1] + 1
else :
dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])
2. xx
3.xx
4. lora, p tuning v1 v2, adapter tuning, prefix tuning.
5. 绝对,相对位置编码, Rope旋转位置编码
6. 从输入开始,一个是绝对位置编码一个是Rope编码。经过embedding层后,transformer decoder直接输入注意力层,而llama则是先经过norm,一个是Post norm一个是Pre norm,同时norm这里的区别前者为layer norm后者为Root mean square norm,对于注意力层,llama是GQA而transformer decoder是MHA,再经过FFN层,FFN层的激活函数transformer deocder是Relu,而llama没记错的话是SwiGelu,(就想到这些,不知道还有没有不同)
7. 不知怎么答
8. SGD , w = w - lr * gradient, Adam引入了一阶动量与二阶动量(方差)
9. 交叉熵损失
10. 假设dB参数的大模型,模型与梯度半精度fp16保存,一个参数两个字节,则占用2d G + 2d G = 4d G显存,优化器如果用adam,fp32保存模型权重备份,动量与方差,则占用3 * 4 * d G = 12d G显存,对一个dB参数的大模型做full training显存占用估计在16dG。(deepspedd, 模型并行,张量并行之类的可能会继续问了)
欢迎补充点评
查看原帖
4 评论
相关推荐
牛客热帖
更多
正在热议
更多
# 工作中哪个瞬间让你想离职 #
28690次浏览 203人参与
# 在职场上,你最讨厌什么样的同事 #
16675次浏览 169人参与
# 选了这个offer,你有没有后悔? #
593387次浏览 4031人参与
# 机械人,秋招第一次笔试的企业是哪家? #
41305次浏览 329人参与
# 小米硬件提前批进度交流 #
171236次浏览 1528人参与
# 机械求职避坑tips #
53580次浏览 381人参与
# 哪些公司校招卡第一学历 #
76817次浏览 322人参与
# 担心入职之后被发现很菜怎么办 #
140165次浏览 810人参与
# 入职以后才知道的校招谎言 #
89188次浏览 588人参与
# 职场常用语录大全 #
4334次浏览 32人参与
# Offer比较,你最看重什么? #
192348次浏览 1310人参与
# 华子oc时间线 #
1245418次浏览 6487人参与
# 哪些公司开提前批了? #
31014次浏览 278人参与
# 风评不好的公司,你会去吗? #
66861次浏览 469人参与
# 两会劳动法放大招 #
76752次浏览 692人参与
# 应届生初入职场,求建议 #
230553次浏览 2651人参与
# 实习如何「偷」产出? #
57813次浏览 1414人参与
# 不卡学历的大厂有哪些? #
34380次浏览 264人参与
# 怎么防止在试用期被辞退 #
129295次浏览 927人参与
# 校招阶段,学历VS技术哪个更重要? #
20461次浏览 211人参与