给我面没招了,发点面经攒攒人品~1、项目:1.加速时的vllm细节2.项目中遇到的难点2、八股:1.kv-cache为什么存在以及解决的问题2.kv-cache 怎么算3.cuda 内存结构4.block 级规约过程(求一组线程的最大值)5.decode阶段输出token的选择方案?6.更倾向框架层还是算子层7.pd分离的大致流程8.推理加速的手段有哪些:很多9.讲讲moe模型10.讲讲多种attention头以及特点11.kv- cache的维度一般是多少,只想起了mla的维度是512,其余的维度说和q的维度是对应的12.SM 的具体结构3、代码:口述代码原理(手机面试):柱子接雨水