import os import moxing as mox if not os.path.exists('Open-Sora'): mox.file.copy_parallel('obs://modelbox-course/open-sora_1.1/Open-Sora', 'Open-Sora') if not os.path.exists('/home/ma-user/.cache/huggingface'): mox.file.copy_parallel('obs://modelbox-course/huggingface', '...
Open-Sora 在开源社区悄悄更新了,现在单镜头支持长达16秒的视频生成,分辨率最高可达720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。生成个横屏圣诞雪景,发b站 再生成个竖屏,发抖音 还能生成单镜头16秒的长视频,这下人人都能过把编剧...
在两周前成本直降46%的Sora训练推理复现流程基础上,Open-Sora 1.0犹如一场技术革命,倾囊分享包括数据处理、详尽的训练步骤、核心模型权重在内的全部“秘密配方”。Open-Sora 1.0 生成的都市繁华掠影 Open-Sora 1.0模型以其独具匠心的设计惊艳亮相,其核心技术架构采用当下备受瞩目的Diffusion Transformer (DiT)架...
Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora 全面解读Sora复现方案 接下来,我们将深入解读Sora复现方案的多个关键维度,包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。模型架构设计 模型采用了目前火热的Diffusion Transformer (DiT) [1] 架构。作者团队以同样使用...
OPensora原理 open-sora1.0 VAE:目前没有较好的开源的时空VAE,采用了2D VAE的架构。 STDiT:视频训练涉及大量的token。考虑到24fps的1分钟视频,我们有1440帧。通过VAE下采样4倍和patch大小下采样2倍,我们得到了1440x1024≈150万个token。为了降低计算成本,使用性能较好的时空注意力STDiT(顺序)。我们在 STDiT 中...
3月12日下午,北京大学深圳研究生院—兔展智能AIGC联合实验室(以下简称“联合实验室”)在深圳举行了Open-Sora开源计划说明会。据介绍,Open-Sora开源计划旨在通过开源社区的力量复现Sora模型。由于资源有限,团队目前仅搭建了基础架构,还无法进行完整训练,希望通过开源社区逐步增加模块并筹集资源进行训练。据联合实验室...
正式发布了“Open-Sora”计划 旨在复现一个“开源版Sora”该项目由深圳兔展智能创始人、CEO董少灵与北京大学信息工程学院助理教授、博士生导师袁粒领衔发起,期望通过产业公司和科研机构的强强联手,以开源的方式对外传播中国团队的技术自信,号召全球社区一起做人类普惠的技术内容。 值得关注的是,深圳兔展智能成立于...
英伟达入股的AI公司Lambda Labs,也基于潞晨Open-Sora模型权重打造了数字乐高宇宙。而在公布模型权重和训练细节后,潞晨Open-Sora还在持续开源中。最近,其幕后团队在GitHub上晒出了技术路线,进一步披露了最新版本模型的训练核心内容报告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md。具...
近期,HPC-AI Tech团队在GitHub上正式公开了Open-Sora项目(https://github.com/hpcaitech/Open-Sora),该项目致力于复现OpenAI的Sora模型核心技术,并已取得实质性进展。作为开源社区内的开创性工作,Open-Sora率先提供了全球首个类Sora视频生成方案。魔搭社区也迅速跟进并深入学习了这一研究成果,以期促进技术交流与应用落...