沐曦 ai 工程师一面刚开始简单问了下项目你训练用 PyTorch, 说一下反向传播算法Adam 和 SGD 有什么区别?C ++里边内存布局是什么?malloc 或者 new 它分配的是在哪个区啊?malloc 它在分配的过程中,它具体的这个分配流程是什么样的?就它会用到哪些?malloc 它怎么向系统去?就当它的空闲块不不够的时候怎么向系统去申请?对 Transformer 这种网络结构有了解吗?Attention 它是怎么计算的?计算过程是什么样的?那你有做过 CUDA 编程吗?计算框架的底层算子它的 autograd 是怎么实现的?反问