【模型架构】分布式和多卡使用
数据并行
每个机器都有一个相同的完整的模型,然后分别处理不同的数据,最后server汇总结果;模型并行
把一个模型进行拆分,每个机器上是模型的一部分,然后每一部分模型在不同的机器处理,处理结果移交给下一个机器的部分继续处理。现在以数据并行为常用方式,模型并行主要难点在模型拆分上,二者通信量都很大。
分布式的模型更新方式主要是两种 中心化(parameter server)和去中心化(ring all-reduce etc.)
中心化参见TF和MXNet 去中心化参见NCCL的处理方式