字节大模型应用开发 日常实习一面
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.项目拷打
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
1.项目拷打
2.R1的MLA是如何实现KV-Cache的节约?
3.R1在SFT时冷启动的目的?
4.位置编码是什么?解释ROPE?
5.一个14B的模型,推理和训练要多少显存?
6.显存的占用和哪些因素相关?
7.大模型灾难性遗忘是什么?如何解决?
8.BF16、 FP16、FP32对比。
9.Adam, AdamW原理。
全部评论
相关推荐
查看12道真题和解析 点赞 评论 收藏
分享