近日,英伟达开源了一款名为 Sana 的图像生成模型,这一模型仅有0.6亿个参数,极大降低了运行门槛。据了解,Sana 能够生成4096×4096分辨率的图像,并且可以在16GB 的显卡上运行,不到1秒的时间内生成1024×1024分辨率的高质量图片,这一速度在同类模型中表现突出。研究团队引入了一种深度压缩自编码器(DC-AE),相...
不过这些工作都没有开源,于是,研究团队将目标设定成了推出开源版的基于自回归图像生成模型。针对现有的先进的图像生成模型,作者总结出其成功的三点关键设计:图像压缩/量化器(Image Compressors/Tokenizers)可scale up的图像生成模型(Scalable Image generation models)高质量的训练数据(High-quality Training Data)...
该模型也是首个遵循 Apache 2.0协议开源的图像生成模型。 一、评测 DPG-Bench(Dense Prompt Graph Benchmark)是一个用于评估文本到图像生成模型的基准测试,主要关注模型在复杂语义对齐和指令跟随能力方面的表现。 CogView4-6B,其在 DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA。 二、任意长度...
在人工智能领域,每一天都可能发生颠覆性的变革。就在Midjourney刚刚进行大更新的第二天,开源图像生成领域就迎来了一匹令人瞩目的黑马—— FLUX.1。这个突如其来的新玩家不仅在性能上声称大幅超越了DALL·E3、Mid…
模型链接:https://huggingface.co/RED-AIGC/StoryMaker 亮点直击 解决了生成具有一致面部、服装、发型和身体的图像的任务,同时允许背景、姿势和风格的变化,通过文本提示实现叙事创作。 提出了StoryMaker,首先从参考图像中提取信息,并使用Positional-aware Perceiver Resampler进行细化。为了防止不同角色与背景互相交织,使用...
App DeepSeek发布开源多模态大模型Janus-Pro-7B!本地部署+Colab部署!支持图像识别和图像生成!基准测试得分超越OpenAI的DALL·E 3 2959 0 08:16 App 手把手教你如何在本地部署Deepseek Janus-Pro-1B模型(简易版) 2267 0 01:21 App 【Textoon】阿里开源的2D人物生成 从文本描述中生成生动的2D卡通人物 510...
SDXL Turbo 采用了Adversarial Diffusion Distillation 技术,也叫做逆向扩散蒸馏绘图模型。可以在保持高采样和保真度的前提下,实现单步合成、完成实时图像生成。在和其他扩散模型的对比中可以在保持图像质量的前提下,用最低的 GPU资源,最快的速度完成图像生成各项测试,指标均超过同级别对手。https://github.com/...
开源地址:https://github.com/SUDO-AI-3D/One2345plus 论文地址:https://arxiv.org/abs/2311.07885 在线demo:https://www.sudo.ai/3dgen One-2-3-45++的核心技术原理主要包括三大块:一致的多视角图像生成、基于多视角的3D重建以及纹理优化。 一致的多视角图像生成 ...
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构。该模型在图像生成质量、复杂提示理解和资源效率方面表现出色,能够根据文本描述生成高质量、多风格的图像。模型支持多种推理求解器,如中点求解器、欧拉求解器和DPM求解器,生成速度较快。Lumina-Image 2.0 ...