阿里淘天算法实习面经1h

八股:
1.介绍一下LoRA微调。
2.训 LoRA时会调整参数吗?调过哪些参数,有什么经验?
3.SFT模型的loss是怎么计算的?怎么确保只计算该计算部分的loss?
4.在计算 attention 时有什么节省显存资源的策略吗?比如将两个样本拼到一起计算attention等。
5.二维的attention mask矩阵是一个耗显存的操作,有什么优化策略?比如用一维的实现二维的功能之类的。
6.分布式训练中有哪些并行策略?
7.介绍一下zero技术。
8.zero在进行并行计算时,这台机器怎么拿到别的机器上的参数?
9.有4块卡,数据被切成了4份,每个卡上有一份数据,设一次通信量是x,如果要实现一次All Reduce操作,需要多少通信量?
10.zero2和zero3是什么并行策略方式?
11.LLM重复生成内容的问题如何缓解?
12.Transformer用的是什么normalize方式?为什么用LN不用BN?
13.SFT的调参经验?
无code
全部评论

相关推荐

评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务