12月3日,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸...
智谱开源视频生成模型CogVideoX 8月6日,智谱宣布将与“清影”同源的视频生成模型—CogVideoX开源。这是国内首个开源的视频生成模型。CogVideoX开源模型包含多个不同尺寸大小的模型,目前将开源CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味...
See3D 不仅支持零样本和开放世界的 3D 生成,还无需微调即可执行 3D 编辑、表面重建等任务,展现出在多种 3D 创作应用中的广泛适用性。See3D 支持从文本、单视图和稀疏视图到 3D 的生成,同时还可支持 3D 编辑与高斯渲染。相关的模型、代码、Demo 均已开源,更多技术细节请参考 See3D 论文。论文地址: https:...
该在原有的 VBench 评测框架基础上,优化并升级了对长视频生成的评测能力,目前已包含 Gen-3、可灵、OpenSora 等主流模型。这使开发者和用户能够更系统地评估模型性能,尤其是在长视频生成方面。书生・筑梦 2.0 在开源 2B 模型中表现卓越,性能甚至可以媲美开源最优的 5B 模型。筑梦 2.0 技术解析 1、模型...
加载视频 Animatediff模型设置 合成视频 资源下载 本文给大家分享一个改造过的 Animatediff 模型,使用它生成视频的速度相比原始模型可以提升10倍以上,这就是字节跳动最近开源的 Animatediff-Lightning,本文就来介绍下 Animatediff-Lightning 的原理和使用方法。
就在各大公司的视频生成模型打的不可开交的时候,腾讯混元发布了自家的视频生成模型 HunyuanVideo,而且模型和代码全部开源了:模型:https://huggingface.co/tencent/HunyuanVideo代码:https://github.com/Tence…
智东西10月11日消息,据VentureBeat报道,北京大学、北京邮电大学和快手科技在本周联合开源了一款名为Pyramid Flow的高清视频生成模型。Pyramid Flow能根据文本描述制作长达10秒、分辨率为1280×768、每秒24帧的视频。Pyramid Flow采用了金字塔流匹配算法,优化了视频生成的效率和质量。这一算法将视频生成过程分解为多个...
—CogVideoX开源。“清影”模型30秒可将任意文图生成视频。据介绍,CogVideoX开源模型包含多个不同尺寸大小的模型,目前智谱将开源CogVideoX-2B,它在FP-16精度下的推理仅需18GB显存,微调则只需要40GB显存,这意味着单张4090显卡即可进行推理,而单张A6000显卡即可完成微调。本文源自:金融界AI电报 ...
1、模型概述 Pyramid Flow能够: 根据文本描述生成长达10秒的视频 支持1280x768的高分辨率 实现24fps(每秒帧数)的流畅帧率 在仅56秒内生成5秒长的384p视频 这些性能指标不仅与当前顶级的全序列扩散模型相当,在某些方面甚至更胜一筹。 2、核心技术:金字塔流匹配算法 ...