1. 介绍自己的项目2. LLaMA和GLM的区别,模型架构等方面3. BLEU和ROUGE4. 数据量和这个效果之间的关系是什么样的5. LLM的参数介绍(temp topk top p等)6. 长度过长怎么处理,从是否fix原有模型回答。(BPE 扩展词表,分阶段generate)以及从input直接回答7. PEFT的方式8. data construction的tricks6. 淘天客服部门1. LLM generate 参数问题2. slef-attention得根号d3. LLM的评估4. 介绍下simCSE5. 解决tokens不够的问题应该怎么办6. 详细介绍下deepspeed(三个stage结合参数回答)7. gpt和llama的区别(模型结构上的)8. LORA论文讲一下,对比p-tuning9. LLM训练的时候为什么warmuppretrain数据量大,前面的数据量占比小,可能带来bias参数量大,初始化的时候w是随机的,防止爆炸10. 对比学习中的batch size是大一些好还是小一些好->大一些,甚至可以到10k+,为了构造好的negative样本11. coding:给你一个数组,返回其中的前k个出现频率最高的元素,假设数组特别大,k很小