携程nlp算法一面

携程面试 #携程面试#
携程算法nlp面试
新鲜的携程nlp面试
我是没有笔试,直接面试的,hr发邮件那天我就点了改期,但是她一直没回我
到了今天面试时间,我又怕面试官没通知到位,我就点进链接一看,发现人家已经上线等我
于是有了史上最短15分钟面试
对不起人家直通面试的机会,也是自己还没准备充分
对着简历问了,将项目内容,任务
BERT预训练前期怎么处理
Self attention 原理

然后就还问我有几个offer ?0 offer怎么回
然后就写了一个题目 就是两个用户浏览了机票几次,电影票几次,怎么求相似度 建模

最后就到了死亡一问,我还有什么问题要问他的,我也不知道我还有啥问题问他
这如何回答
对不起你们,我当分母了
#面经##算法工程师##校招#
全部评论
楼主携程一面以后有后续吗
点赞 回复 分享
发布于 2020-09-03 09:18
携程算法一共几面呀,目前刚面了二面,估不准会不会过二面
点赞 回复 分享
发布于 2020-08-28 17:06
难受,面了30多分钟凉了,问了几个问题没答上来
点赞 回复 分享
发布于 2020-08-17 16:30
我也刚面完,感觉略微草率😑
点赞 回复 分享
发布于 2020-08-17 14:48
楼主你好,请问你是实习、校招还是社招?
点赞 回复 分享
发布于 2020-08-17 10:58

相关推荐

翻遍各种大模型的实现,虽然结构上可能保留了 dropout 的实现,但是采样概率都设置为 0 了。唯一一个比较新的,还用 Dropout 的模型是 Meta 训练的 Galactica 模型。那为什么现在不用了呢?核心还是要弄清楚 Dropout 的使用场景。Dropout 之前在深度学习当中是一个特别好用的方法,可以防止过拟合,提高泛化。所以说,当模型较大,数据较少的时候,使用 Dropout 是比较合适的。现在大模型处在什么状态呢?✅预训练在预训练阶段,目前可能还是处于欠拟合的状态。之所以说可能,是基于目前公开的一些论文的出的结论。但是现在闭源的公司在采用大量数据合成的情况下,已经训练足够充分或者接近充分也说不定。以 llama 一系列论文为例,训练 llama 1 的时候,龙猫 Scaling law 里面提到 GPT3 是一个训练很不充分的模型。然后给出的数据配比的建议是,10B 的模型要采用 200B 的 token 来训练。但是 llama 1 采用了 7B 的模型,训练量 1T 的 token 发现性能依然有提升。而且预训练所有的语料一般只过一个 epoch,某些特定的领域可能过 2个 epoch,可以认为样本的重复率很低。所以,在数据足够多,多样性足够而且没有太多重复的情况下,大模型在预训练阶段仍然没有过拟合的风险。也就完全不需要采用 dropout。✅Dropout 就完全不需要了么?如果上面的条件不能满足,Dropout 还是有用武之地的。比如前面提到的 Galactica 模型。这个模型和其他大模型不太一样的地方是训练了 4.25 个 epoch,因为他们认为高质量的数据更重要一些,但是又没有那么多,所以就 repeat 数据了。在论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中,详细列举了数据 Repeat 对训练 LLM 的影响,并且证明了 Dropout 可以缓解数据重复带来的性能损失。在文章《Can LLMs learn from a single example?》中,也提到了在 SFT 的时候,少量的重复数据就会降低模型的性能。这也符合常理,SFT 的数据分布和预训练的通常是不太一样的,重复的数据会让模型拟合新的分布,从而忘掉旧的分布。文中同样也提到 Dropout 可以缓解数据重复带来的影响。所以 Dropout 在数据量较少,多样性不高,需要 repeat 的场景下,依然是一个减少过拟合的很方便的手段。比如现在已经有一些在 LoRA 微调的时候采用 Dropout 的研究了。      
点赞 评论 收藏
分享
评论
1
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务