滴滴算法面经一面
reward迭代的意义和收益(项目相关)买卖股票的最佳时机
一面感觉一直在聊项目没什么通用的二面:
一场八股纯享我还没介绍完我的第一个项目面试官0帧起手开始拷打八股
了解哪些掩码和attention
self attention和cross attention分别介绍
有什么异同transformer的encoder和decoder都用了什么
介绍一下batchnorm训练预测有什么不同
为什么预测要用全局的均值方差
数据预处理的归一化可以替代batchnorm吗为什么 transform用bn了吗 bn和In有什么不同
transformer为什么用In
实习或者学校中常用的模型是什么详细介绍一下 transformer如何刻画时序
介绍一下你了解的位置编码各自优缺点
代码题太长了就是类似一个有规则的序列找最大值