总而言之,是gpu之间的通信时间限制了multi-gpu的训练速度,而gpu之间的通信模式如果不是NVLink,多块卡的训练速度比一块卡要慢 用nvidia-smi topo -m分别查看两台机器的通信模式(上图为v100,下图为3090),果然是受到了通信模式的限制.. 最后利用单卡训练+梯度累积来暂时性地避免这个问题。 要想真正解决这种问题,...