整体面试还是不错的,但是没后续了,不知道是哪里出了问题1、 attention中数据shape是batch first还是seq_len first2、Prompt长度加倍,首token延迟加倍吗3、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗4、专家的负载均衡是什么,怎么解决5、如何定性定量评估数据集质量,单条和整体数据集质量6、单一分类模型,细分分类模型和MOE融合的优劣7、MHA手写8、说一下 simpo 的原理,它是怎么解决 dpo 微调序列过长的问题的9、deepspeed 的每一段的通信比较,zero3分别是0和2的多少倍