阿里健康搜推算法一面 1h

前段时间面的阿里健康,感觉问的不是很难,基本上都答出来了,但是没有后续了,发下面经攒攒人品
1.选一个项目进行介绍
2.infoNCE loss是计算公式是什么?为什么使用这个损失函数?
3.为什么模型结构要换成HSTU?
4.Cross attention和普通的self attention有什么区别?
5.Flash attention的原理是什么?
6.Self attention的 self 体现在哪里?为什么要使用多头?这个多头是怎么实现的? 
7.为什么QK点积需要除以根号d k?
8.什么是kv cache?
9.介绍一下什么是因果掩码?
10.SFT微调和预训练之间的区别?
11.为什么现在的大模型都使用因果掩码?
12.普通的推荐模型和大模型之间有什么关联?生成式推荐了解吗?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务