近日,英伟达开源了一款名为 Sana 的图像生成模型,这一模型仅有0.6亿个参数,极大降低了运行门槛。据了解,Sana 能够生成4096×4096分辨率的图像,并且可以在16GB 的显卡上运行,不到1秒的时间内生成1024×1024分辨率的高质量图片,这一速度在同类模型中表现突出。研究团队引入了一种深度压缩自编码器(DC-AE),相...
不过这些工作都没有开源,于是,研究团队将目标设定成了推出开源版的基于自回归图像生成模型。针对现有的先进的图像生成模型,作者总结出其成功的三点关键设计:图像压缩/量化器(Image Compressors/Tokenizers)可scale up的图像生成模型(Scalable Image generation models)高质量的训练数据(High-quality Training Data)...
该模型也是首个遵循 Apache 2.0协议开源的图像生成模型。 一、评测 DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。 CogView4-6B,其在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。 二、任意长度...
Stable Diffusion模型具有以下几个优点: - 高质量:Stable Diffusion模型可以生成高分辨率、高质量、多样化的图像,与真实图片难以区分。 - 灵活性:Stable Diffusion模型可以处理各种类型和风格的文本输入和图像输入,无论是简单的描述、复杂的故事、抽象的概念、还是具体的要求。 - 稳定性:Stable Diffusion模型可以避免出现常...
在人工智能领域,每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天,开源图像生成领域就迎来了一匹令人瞩目的黑马—— FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Mid…
AI开源项目汇总 · 199篇 AI改变世界 这就是AI TRELLIS模型采用了专为SLAT设计的矫正流变换器(Rectified Flow Transformers),仅需输入一张图片,它就能自动帮你生成3D模型。这与之前分享的TripoSR项目类似,但是精度和贴图细节比TripoSR要高很多。并在一个包含50万个多样化3D对象的大型数据集上进行了训练,参数量高达20...
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色,能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。Lumina-Image 2.0 ...
图像生成领域,看来又要变天了。 就在刚刚,OpenAI开源了比扩散模型更快、性能更好的一致性模型: 无需对抗训练,就能生成高质量图片! 这个重磅消息一经发出,立刻引爆学术圈。 虽说论文本身在3月份就已低调发布,但当时大伙儿普遍认为它只是个OpenAI的前沿研究,并不会真正将细节公开。
开源地址:https://github.com/SUDO-AI-3D/One2345plus 论文地址:https://arxiv.org/abs/2311.07885 在线demo:https://www.sudo.ai/3dgen One-2-3-45++的核心技术原理主要包括三大块:一致的多视角图像生成、基于多视角的3D重建以及纹理优化。 一致的多视角图像生成 ...
在1024x1024分辨率下,Sana-0.6B 模型的参数只有5.9亿,但整体性能却达到了0.64GenEval,与许多更大的模型相比毫不逊色。而且,Sana-0.6B 可以在16GB 笔记本电脑 GPU 上部署,生成1024×1024分辨率的图像仅需不到1秒。对于4K 图像生成,Sana-0.6B 的吞吐量比最先进的方法(FLUX)快100倍以上。Sana 不仅在...