living 活着,注视着,思考着,偶尔表达 之所以只有sora能生成还可以看的长视频,说明原理不是国内那几个模型用的智障文生图扩散模型套壳+要素替换。也不是更高级一点的训练参数映射语义分割后图像,通过参数合成代换。而是更复杂的。。。起码我找到的很多片段都可以证明,sora有一定3维空间结构理解和场景整体长逻辑的重构控...