字节秋招算法第n次复活面..

1.transformer encoder结构 位置编码用的是什么 除了正余弦位置编码还有什么别的
2.具体讲multi head attention怎么做的 以及公式 为什么要除根号下dk
transformer decoser和encoder有哪些不同的地方 cross attention中qkv分别来自哪里?带mask的self attention是什么样的 mask
4.为什么transformer中用的是In不是bn
5.交叉熵损失函数公式 为什么分类问题只能用交叉熵不能用 mse
6.其他项目强相关,类似为什么要用one6.rec的基座 样本组织形式和one rec和hstu有什么区别。损失函数是什么。dpoloss公式,怎么构造偏好对,和基于人类真实反馈的有什么区别,dpo的流程是怎样的,有什么作用,为什么不能和参考模型分布相差太远
7.rq vae的原理,rq vae的输入是怎么得到的,经过encoder之后得到的latentemb有什么用,和平衡kmeans有什么不同?为什么rq vae优化 ctr预估模型提升不那么显著
代码
1.交叉熵损失函数公式写出来 求y=wx+b 梯度 
2.两个数组的子序列求最大点积 有点难 用二维dp才行
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务