祝大家都能拿到满意的Offer!主要聊的项目穿插八股:1. 为什么选择xx模型,你能介绍一下这个模型的架构吗?也介绍一下transformer的架构?你选的这个模型的架构相比transformer区别是什么?这个是业界比较好的基座模型吗?为什么选择这么模型?结果有什么评价指标?2. 在重构词表的时候会不会涉及到一些新的bpe分词的问题?你们是怎么解决的3. (我项目里提到的第二种方法)是一种已有的方法还是你们的创新点?分别提高了多少个百分点?4. 目前这个模型部署使用了吗?5. 在训练那个NLP模型的时候,你用的是什么框架?6. 你有没有用过decoder-only的模型?有没有这方面的经验,你对现有的decoder模型是否了解?知不知道它们的创新点在什么地方?手撕:MHA