大模型算法二面 技术面-minimax

#MiniMax求职进展汇总# 整体面试还是不错的,但是没后续了,不知道是哪里出了问题
1.介绍实习项目时,重点讲你解决过最困难的问题以及最终的优化效果。
2.你在训练大模型时用过哪些分布式训练方案?
数据并行、模型并行、流水并行的区别是什么?
3.DeepSpeed 的 ZeRO-1 / ZeRO-2 / ZeRO-3 的核心差异是什么?
4.如果训练一个 70B 模型,如何估算单卡显存占用?
5.除了 ZeRO,你还了解哪些训练优化方法?
6.LoRA 的原理是什么?为什么低秩分解可以减少训练参数?
7.LoRA 中矩阵 A 和 B 为什么通常采用不同初始化方式?
8.手撕:实现 滑动窗口最大值
全部评论
考虑我司不 欢迎联系
点赞 回复 分享
发布于 今天 00:09 上海

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务