大模型Agent算法一面-快手
攒人品中,祝大家都能拿到满意的Offer!
1.全参数微调模型显存计算
2.MoE模型微调显存计算
3.从数学角度解释为什么attention要除以根号下d_k?如果不开根号行不行
4.多模态大模型的架构一般有哪些
5.PPO有几个模型?
6.GRPO和PPO有什么区别?
7.拷打论文
8.智力题,100个柜子,一开始是关的,有编号为1到100的人走过。每个人会根据自己的编号,反转柜子的状态。他会把编号等于或者是他的倍数的柜子打开或者关闭。问最后有多少个柜子是开的
1.全参数微调模型显存计算
2.MoE模型微调显存计算
3.从数学角度解释为什么attention要除以根号下d_k?如果不开根号行不行
4.多模态大模型的架构一般有哪些
5.PPO有几个模型?
6.GRPO和PPO有什么区别?
7.拷打论文
8.智力题,100个柜子,一开始是关的,有编号为1到100的人走过。每个人会根据自己的编号,反转柜子的状态。他会把编号等于或者是他的倍数的柜子打开或者关闭。问最后有多少个柜子是开的
全部评论
相关推荐
曾经我也想过早点睡觉:哈基咪太强了,不愧是教员教出来的
查看11道真题和解析 点赞 评论 收藏
分享
查看21道真题和解析 点赞 评论 收藏
分享