1.介绍自己的项目2.BLEU和ROUGE3.self-attention求内积时为啥除以根号d4.LLM的评估5.介绍下simCSE6.解决tokens不够的问题应该怎么办7.详细介绍下deepspeed(三个stage结合参数回答)8.gpt和llama的区别(模型结构上的)9.PEFT的方式,LORA论文讲一下,对比p-tuning10.LLM训练的时候为什么warmup11.对比学习中的batch size是大一些好还是小一些好13.了解最新技术一般怎么通过什么渠道14.代码题:lc347 前 K 个高频元素