大致上是通过Checkpointing和 冗余计算(RC) 两种方式来解决容错的问题。比如Bamboo: Making Preemptible Instances Resilient for Affordable Training of Large DNNs通过引入冗余计算来提升训练的容错性,进而可以使用低成本的Spot 实例,降低训练成本。