携程面试 全是业务场景 b溃

nlp春招 面试官迟到 也没开摄像头

1. 多轮对话中 用户输出的意图前后不一致的 怎么做

2. 多轮对话中,模型无法识别到之前的内容,或者说遗忘之前的内容 怎么做
    1. 比如用户说我想去杭州,天气怎么样?这里指杭州的天气 不是当前位置的天气

3. 模型预训练mask怎么做的?

4. 模型预训练超过了最大长度 怎么做? 截断 拼接?

5. 如果没有达到输入的长度,怎么做 用padding?

6. padding效果不好 有什么其他办法?

7. 大模型幻觉怎么处理

8. 具体一点,训练语料已经过时了,现在用怎么能够得到当前的答案

9. 做题 快排

基本都是业务相关问题 也没有接触过 
面试官意思是这些都是最新论文有的 说我应该多关注最新论文等等

现在在才想起来语料过时意思是回答外挂知识库吗
#携程算法#  #携程春招#  #携程#
全部评论
携程nlp去年秋招基本招满了,春招hc很少,可能你被kpi了
2 回复 分享
发布于 2024-03-30 19:36 浙江
面完秒人才库..
1 回复 分享
发布于 2024-03-28 15:28 浙江
二面吗兄弟
点赞 回复 分享
发布于 2024-03-28 17:07 江苏

相关推荐

翻遍各种大模型的实现,虽然结构上可能保留了 dropout 的实现,但是采样概率都设置为 0 了。唯一一个比较新的,还用 Dropout 的模型是 Meta 训练的 Galactica 模型。那为什么现在不用了呢?核心还是要弄清楚 Dropout 的使用场景。Dropout 之前在深度学习当中是一个特别好用的方法,可以防止过拟合,提高泛化。所以说,当模型较大,数据较少的时候,使用 Dropout 是比较合适的。现在大模型处在什么状态呢?✅预训练在预训练阶段,目前可能还是处于欠拟合的状态。之所以说可能,是基于目前公开的一些论文的出的结论。但是现在闭源的公司在采用大量数据合成的情况下,已经训练足够充分或者接近充分也说不定。以 llama 一系列论文为例,训练 llama 1 的时候,龙猫 Scaling law 里面提到 GPT3 是一个训练很不充分的模型。然后给出的数据配比的建议是,10B 的模型要采用 200B 的 token 来训练。但是 llama 1 采用了 7B 的模型,训练量 1T 的 token 发现性能依然有提升。而且预训练所有的语料一般只过一个 epoch,某些特定的领域可能过 2个 epoch,可以认为样本的重复率很低。所以,在数据足够多,多样性足够而且没有太多重复的情况下,大模型在预训练阶段仍然没有过拟合的风险。也就完全不需要采用 dropout。✅Dropout 就完全不需要了么?如果上面的条件不能满足,Dropout 还是有用武之地的。比如前面提到的 Galactica 模型。这个模型和其他大模型不太一样的地方是训练了 4.25 个 epoch,因为他们认为高质量的数据更重要一些,但是又没有那么多,所以就 repeat 数据了。在论文《To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis》 中,详细列举了数据 Repeat 对训练 LLM 的影响,并且证明了 Dropout 可以缓解数据重复带来的性能损失。在文章《Can LLMs learn from a single example?》中,也提到了在 SFT 的时候,少量的重复数据就会降低模型的性能。这也符合常理,SFT 的数据分布和预训练的通常是不太一样的,重复的数据会让模型拟合新的分布,从而忘掉旧的分布。文中同样也提到 Dropout 可以缓解数据重复带来的影响。所以 Dropout 在数据量较少,多样性不高,需要 repeat 的场景下,依然是一个减少过拟合的很方便的手段。比如现在已经有一些在 LoRA 微调的时候采用 Dropout 的研究了。      
点赞 评论 收藏
分享
评论
5
8
分享

创作者周榜

更多
牛客网
牛客企业服务