给我面没招了,发点面经攒攒人品~1.实习拷打2.拷打第一个项目3.拷打第二个项目:3.1构建新的用户行为序列的动机是什么?3.2序列是否进行了去噪/去重?3.3引入了什么sideinfo?效果如何?3.4更长序列(1000/10000)如何建模?3.5 DIN/Target Attention 与 Self Attention 的区别?4.拷打第三个项目:4.1模型结构和OneTrans的区别?4.2为什么采用block causalmask?4.3是否思考过在Tokenizer部分也进行 sequence和non-sequence的交互?4.4工程上如何控制超长行为序列的显存与计算开销?4.5当前模型的规模?以及所使用的资源情况?5.Coding:给定一个question list,每个item是一个[v,b],v表示解答该题目能够获得多少value,b表示解答该题目后有多少道题不能解答。求在当前list下,所能获得的最大value。(反向dp,时间复杂度为O(n))