Sora横空出世给予了更多启发,视频只是一个更加高维的表现形式,其建模方法应该是能够向下兼容做文本、语音、图像等稍低维的数据格式的。Sora能够生成逼近现实世界规则的视频,得益于其海量数据支撑,大模型,大算力,已有的ChatGPT、DALLE3等技术的补充标注描述,LDM隐空间扩散,GPT强大拟合能力和SDEdit条件生成方法等。但其