1. 介绍论文2. Transformer结构3. 注意力机制4. 交叉熵5. 实际微调采用怎么样的配置,如何选取合适的学习率、batch size等等6. PPO(本来面试官想要深挖,但是我表示了自己不太擅长强化学习就没接着问了)7. 注意力机制的优化有哪些(答:GQA、MLA、FlashAttn)8. 算法题:模拟BPE的实现。追问有没有优化的方法(我写的太暴力了)。面试官人很有耐心,一直在深入追问细节,意识到了自己很多不足的地方,感恩。