本文通过引入Pandora迈出了构建通用世界模型的一步,它是一种混合自回归扩散模型,通过生成视频模拟世界状态,并允许通过自由文本行动进行实时控制。Pandora通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。关键的是,Pandora通过集成预先训练的LLM(7B)和预先训练的视频模型,只需进行轻量级微调,避免了从头...