八股: 1,ffn层的作用2,norm层的变体(位置变化pre and post & 算法变化ln and rmsnorm)3,ffn的激活函数,SwiGlu的公式写题*2,约15min:1 计算sqrt(float)2 计算m^n,m为float,n为正整数,不考虑溢出写完题又问八股:1. q,k,v都有啥用,q变得和k一样行不行2. ffn的两层mlp先升维再降维,升到多少(4*hidden_size)?为啥?3. kvcache介绍一下,使用了kvcache之后时间复杂度能降低多少?