1.自我介绍2.介绍项目3.介绍一下Transformer4.为什么当前大型语言模型(LLM)普遍采用Decoder-only架构5.Attention的计算公式6.为什么在要对 attention进行scaled7.介绍一下常用的分布式策略和切割参数8.这几个通信量是怎么排序的9.介绍一下分布式训练的Zero优化策略10.为什么decoder部分要Mask11.讲一讲你了解的智能指针12.三个智能指针的区别13.完美转发14.遇到内存泄露怎么调试15.malloc和new的区别16.你常用的标准库有哪些17.list,vector,map的应用场景与复杂度18.怎么判断链表有没有环19.Cuda编程了解吗20.pytorch你用过那些方法21.有没有对pytorch底层实现进行修改或重写22.并行编程,异步编程你怎么做的22.怎么优化并行处理中的空泡(Bubble)现象23.讲一讲MOE模型,有哪几种算法