1. 介绍下你实习学了什么 做过什么项目,为什么离职的2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住,真正难点在哪MoE 的关键不是“参数变多了”,而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大,但单次前向只走少数几个 expert,所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力,因为可以同时兼顾容量和成本。但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert,训练会很不稳定,热门 expert 被打爆,冷门 expert 学不到东西。另一个难点是通信开销,尤其多机训练时,token dispatch 和 gat...