原因是调用trainer.log_dir的时候,lightning会在所有节点做一次同步。因此必须所有节点都有这个log_dir的调用。只在主进程调用就会使程序卡死在这里。 这个最坑的地方在于,调用一次trainer.log_dir实在是太不起眼的操作了。而且要保存就意味着你还会有一些模型和数据相关的操作,一旦发生这个问题很难直接定位到这里,会...
此外,还可以定义一个LightningDataModule来定义如何构造任何数据加载器。如果模型和数据模块都传递给Trainer...
此外,还可以定义一个LightningDataModule来定义如何构造任何数据加载器。如果模型和数据模块都传递给Trainer...