首先Sora这玩意儿是个扩散模型,就和AI绘画的Stable Diffusion差不多,它从类似静态雪花点的视频起步,然后一步步把那些杂乱的噪声清理掉,生成一段完整的视频。 但是Sora也参考了GPT模型,Sora也用上了大语言模型的Transformer架构。怎么做的呢?首先,把视频和图像像切豆腐一样分成好多小块,每一块叫它“patch”,就相当于...