不知道到底是提前批还是正式批 面呗一面(8.26)1.自我介绍2.讲项目里的focal loss,为什么要使用,好处有哪些,focal loss最初用于解决什么问题。3.讲项目里提到的kto,他和dpo的区别,相比dpo的优势。4.讲给苹果贡献的dora和lora的区别,dora为什么看起来更好5.手撕自注意力6.softmax的公式7.softmax有个改进版(除掉最大值),写出公式,为什么要这么改进。8.llama2相对llama1改进,三大块,rms、rope、silu9.group query attention 为什么这么设计。10.手撕 三数之和 hot100老演员了 秒了。反问:是做中台的部门,做一些训练组件之类的东西。一面是个小姐姐,感觉压力不是很大。