🔥🔥🔥DiT-3D is a novel Diffusion Transformer for 3D shape generation, which can directly operate the denoising process on voxelized point clouds using plain Transformers.DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation Shentong Mo, Enze Xie, Ruihang Chu, Lanqing Hong, ...
FastDiT-3DFastDiT-3DPublic JavaScript13 DiT-3D.github.ioDiT-3D.github.ioPublic HTML 8 contributions in the last year No contributions on March 10th.No contributions on March 17th.No contributions on March 24th.No contributions on March 31st.No contributions on April 7th.No contributions on April...
此外,为了增强跨各种模态的生成能力,Lumina-T2X 从头开始对视频 - 文本、多视图 - 文本和语音 - 文本对进行独立训练,从而可以合成视频、多视图 3D 对象以及文本语音指示。例如,Lumina-T2V 仅用有限的资源和时间进行训练,可以生成任何宽高比和时长的 720p 视频,显著缩小了开源模型与 Sora 之间的差距。 我们先来...
3D 生成: 语音生成: 构图生成: 风格一致性生成: 更大分辨率外推: 图像编辑: 可以说,Lumina-T2X 系列模型真正实现了图像、视频、3D 和语音的「大一统」。 目前,研究者已经推出了分别使用 Flag-DiT 2B 和 Gemma 2B 作为文本编码器的 Lumina-Next-T2I 模型,可以在 gradio 上试玩。 试用地址 1:106.14.2.150:10...
论文代码: https://github.com/NIRVANALAN/LN3Diff Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D 个人主页: https://nirvanalan.github.io/ 论文标题: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation ...
来源:https://github.com/facebookresearch/DiT 这篇论文最早的版本是 2022 年 12 月,2023 年 3 月更新了第二版。当时,扩散模型在图像生成方面取得了惊人的成果,几乎所有这些模型都使用卷积 U-Net 作为主干。 因此,论文的目的是探究扩散模型中架构选择的意义,并为未来的生成模型研究提供经验基线。该研究表明,U...
GitHub 地址:https://github.com/Alpha-VLLM/Lumina-T2X 模型下载地址:https://huggingface.co/Alpha-VLLM/Lumina-T2I/tree/main 论文标题:Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers ...
3D 生成: 语音生成: 构图生成: 风格一致性生成: 更大分辨率外推: 图像编辑: 可以说,Lumina-T2X 系列模型真正实现了图像、视频、3D 和语音的「大一统」。 目前,研究者已经推出了分别使用 Flag-DiT 2B 和 Gemma 2B 作为文本编码器的 Lumina-Next-T2I 模型,可以在 gradio 上试玩。
3D 生成: 语音生成: 构图生成: 风格一致性生成: 更大分辨率外推: 图像编辑: 可以说,Lumina-T2X 系列模型真正实现了图像、视频、3D 和语音的「大一统」。 目前,研究者已经推出了分别使用 Flag-DiT 2B 和 Gemma 2B 作为文本编码器的 Lumina-Next-T2I 模型,可以在 gradio 上试玩。 试用地址 1:http://106.14...
相比于多视图生成 + 重建的两阶段方法,本文方法在 3D 生成效果、多样性以及 3D 一致性上有更稳定的表现: 模型输入 (single image condition): 模型输出: 模型实现 / 开源 目前项目所有模型和测试 / 训练代码均已全面开源至 Github/Huggingface, 并支持多卡、自动混合精度训练、flash-attention 以及 BF16 ...