无论文——小鹏汽车

4月份成立的基础模型组,对标qwen deepseek等,一千张卡,20人用

目前在做后训练,后面会做预训练

手写一个MHA

重点考察了qkv的维度转换

输入维度 batchsize,sequence lenth, emb_dim

reshape + permute后的维度,3,batchsize,num_head,sequence length,head_dim

qkv = self.qkv(x).reshape(batchsize,sequence length,3,num_head,head_dim).permute(2,0,3,1,4)
q,k,v=qkv[0],qkv[1],qkv[2]

无论文勇闯秋招算法岗 文章被收录于专栏

无论文勇闯秋招算法岗 面试考点记录

全部评论
专业性很强
点赞 回复 分享
发布于 10-25 12:22 江苏

相关推荐

程序员花海:1.技能放最后,来面试默认你都会,技能没啥用 2.实习写的看起来没啥含金量,多读读部门文档,包装下 接LLM这个没含金量 也不要用重构这种 不会给实习生做的 3.抽奖这个还是Demo项目,实际在公司里面要考虑策略,满减,触发点,触发规则 库存 之类的,不是这个项目这么简单 4.教育背景提前,格式为 教育背景 实习 项目 技能 自我评价
简历被挂麻了,求建议
点赞 评论 收藏
分享
12-22 16:31
已编辑
桂林电子科技大学 Python
很奥的前端仔:如果你接了offer 临时又说不去 hr确实要多做一些工作。 当然如果是接offer之前当我没说
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务