字节秋招算法第n次复活面..
1.transformer encoder结构 位置编码用的是什么 除了正余弦位置编码还有什么别的
2.具体讲multi head attention怎么做的 以及公式 为什么要除根号下dk
transformer decoser和encoder有哪些不同的地方 cross attention中qkv分别来自哪里?带mask的self attention是什么样的 mask
4.为什么transformer中用的是In不是bn
5.交叉熵损失函数公式 为什么分类问题只能用交叉熵不能用 mse
6.其他项目强相关,类似为什么要用one6.rec的基座 样本组织形式和one rec和hstu有什么区别。损失函数是什么。dpoloss公式,怎么构造偏好对,和基于人类真实反馈的有什么区别,dpo的流程是怎样的,有什么作用,为什么不能和参考模型分布相差太远
7.rq vae的原理,rq vae的输入是怎么得到的,经过encoder之后得到的latentemb有什么用,和平衡kmeans有什么不同?为什么rq vae优化 ctr预估模型提升不那么显著
代码
1.交叉熵损失函数公式写出来 求y=wx+b 梯度
2.两个数组的子序列求最大点积 有点难 用二维dp才行
2.具体讲multi head attention怎么做的 以及公式 为什么要除根号下dk
transformer decoser和encoder有哪些不同的地方 cross attention中qkv分别来自哪里?带mask的self attention是什么样的 mask
4.为什么transformer中用的是In不是bn
5.交叉熵损失函数公式 为什么分类问题只能用交叉熵不能用 mse
6.其他项目强相关,类似为什么要用one6.rec的基座 样本组织形式和one rec和hstu有什么区别。损失函数是什么。dpoloss公式,怎么构造偏好对,和基于人类真实反馈的有什么区别,dpo的流程是怎样的,有什么作用,为什么不能和参考模型分布相差太远
7.rq vae的原理,rq vae的输入是怎么得到的,经过encoder之后得到的latentemb有什么用,和平衡kmeans有什么不同?为什么rq vae优化 ctr预估模型提升不那么显著
代码
1.交叉熵损失函数公式写出来 求y=wx+b 梯度
2.两个数组的子序列求最大点积 有点难 用二维dp才行
全部评论
相关推荐
落贝贝:同学,瞅瞅我司,医疗独角兽,
我的主页最新动态,绿灯直达,免笔试~
查看12道真题和解析 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享