淘天大模型面经

1. 介绍自己的项目
2. LLaMA和GLM的区别,模型架构等方面
3. BLEU和ROUGE
4. 数据量和这个效果之间的关系是什么样的
5. LLM的参数介绍(temp topk top p等)
6. 长度过长怎么处理,从是否fix原有模型回答。(BPE 扩展词表,分阶段generate)以及从input直接回答
7. PEFT的方式
8. data construction的tricks
6. 淘天客服部门
1. LLM generate 参数问题
2. slef-attention得根号d
3. LLM的评估
4. 介绍下simCSE
5. 解决tokens不够的问题应该怎么办
6. 详细介绍下deepspeed(三个stage结合参数回答)
7. gpt和llama的区别(模型结构上的)
8. LORA论文讲一下,对比p-tuning
9. LLM训练的时候为什么warmup
pretrain数据量大,前面的数据量占比小,可能带来bias
参数量大,初始化的时候w是随机的,防止爆炸
10. 对比学习中的batch size是大一些好还是小一些好->大一些,甚至可以到10k+,为了构造好的negative样本
11. coding:
给你一个数组,返回其中的前k个出现频率最高的元素,假设数组特别大,k很小
全部评论
同学,瞅瞅我司,医疗独角兽,我的主页最新动态,绿灯直达,免笔试~
1 回复 分享
发布于 10-14 13:31 广东

相关推荐

哇哇的菜鸡oc:他这不叫校招offer,而是实习offer
点赞 评论 收藏
分享
Java面试先知:我也是和你一样的情况,hr 说等开奖就行了
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务