张量并行将每一层的计算分布到多GPU上,流水线并行将不同层分配到不同GPU上
张量并行用于训练,流水线并行用于推理
张量并行只能用于Attention层,流水线并行只能用于MLP层
张量并行需要NVLink高速互联,流水线并行不需要GPU间通信
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题