Open-Sora Plan团队最近对半年多来的探索进行梳理成Arxiv paper,其中包含了WF-VAE的模型/训练细节,Open-Sora Plan扩散模型训练,以及训练稳定性/数据/Prompt增强/I2V/ControlNet等细节。 Open-Sora Plan Paper地址为:arxiv.org/abs/2412.0013 WF-VAE Paper地址为:arxiv.org/abs/2411.1745 欢迎大家讨论、转发、引用...
北大Open Sora视频生成更强了!时长可达10秒,分辨率更高 【AiBase提要:】⭐️ Open-Sora-Plan v1.0.0模型发布 显著提升视频生成质量和文本控制能力⭐️ 支持华为昇腾910b芯片,提升运行效率和质量。⭐️ 该模型能够生成10秒、24FPS的1024×1024高清视频,同时还支持生成高分辨率图像项目地址:https://to...
笔者还发现,仅需一个简洁的指令,Open-Sora便能生成多分辨率的视频短片,彻底打破创作限制。分辨率:16*240p 分辨率:32*240p 分辨率:64*360p 分辨率:480*854p 我们还可以喂给Open-Sora一张静态图片让它生成短片 Open-Sora 还可以将两个静态图巧妙地连接起来,轻触下方视频,将带您体验从下午至黄昏的光影变幻...
1、震撼来袭!Open-SoraPlanv1.2发布,清晰度、推理速度起飞 Open-Sora Plan v1.2版本引入新的3D全注意力架构,提升了对物理世界的理解能力。更新带来了全新的3D全注意力架构,文本生成视频能力升级,清晰度和一致性提升,空间与时间完美融合,推理速度大幅提升。Open-Sora团队开源代码、数据、模型,致力让每个人成为视频创作...
Open-Sora 在开源社区悄悄更新了,现在支持长达单镜头 16 秒的视频生成,分辨率最高可达 720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果…
VidTok-KL-4chn:连续型,隐空间通道数为4。基线方法包括CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2等。 VidTok-KL-16chn:连续型,隐空间通道数为16。基线方法包括CogVideoX,Cosmos-CV等。 定量实验结果表明,VidTok在上述三种设定下均达到了SOTA性能,在常见的视频质量评估指标PSNR、SSIM、FVD、LPIPS上具有全面...
开源地址:https://github.com/hpcaitech/Open-Sora 参考文献:[1] https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md [2] Tay, Yi, et al. "Ul2: Unifying language learning paradigms." arXiv preprint arXiv:2205.05131 (2022).[3] https://openai.com/research/video-...
VidTok-KL-4chn:连续型,隐空间通道数为 4。基线方法包括 CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2 等。 VidTok-KL-16chn:连续型,隐空间通道数为 16。基线方法包括 CogVideoX,Cosmos-CV 等。 定量实验结果表明,VidTok 在上述三种设定下均达到了 SOTA 性能,在常见的视频质量评估指标 PSNR、SSIM、FVD、...
VidTok-KL-4chn:连续型,隐空间通道数为4。基线方法包括CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2等。 VidTok-KL-16chn:连续型,隐空间通道数为16。基线方法包括CogVideoX,Cosmos-CV等。 定量实验结果表明,VidTok在上述三种设定下均达到了SOTA性能,在常见的视频质量评估指标PSNR、SSIM、FVD、LPIPS上具有全面...