框架图,分别是RSSM框架和后面的policy训练框架,policy的训练部分类似于PLANET论文中CEM算法的作用 RSSM DreamerV2框架 训练好world model之后,如何去训练一个policy DreamerV2主要有两个贡献:learning a categorical latent spaceusing和KL balancing。Learning a categorical latent spaceusing:将连续的latent space分布离...
计算成本:虽然 DreamerV2 使用单 GPU 训练,但仍然需要一定的计算资源,训练时间相对较长。 部分游戏性能不佳:在 Video Pinball 游戏中,DreamerV2 的性能不如其他游戏,这可能是因为其世界模型无法有效地表示该游戏中的关键元素(小球)。 探索能力有限:在一些需要高度探索的任务(例如蒙特祖玛的复仇)上,DreamerV2 的表现...