开源模型包括:(1) GLIGEN [12]:使用边界框和对象名称作为附加控制信息的经过微调的稳定扩散模型,用于基于文本生成定位到图像的图像;(2) ControlNet w/Segmentation [30]:使用实例分割图作为控制信息的稳定扩散模型的变体;(3) ControlNet w/ Canny Detection:使用Canny边缘检测图像作为条件的ControlNet的变体;(4) ...
GLIGEN- ON COCO 2023 SOTA! FID 5.61 -2023-01-查看项目 RA-CM3- ON MSCOCO FID 15.7 -2022-11-查看项目 ERNIE-ViLG 2.0 L百亿级 ON COCO FID 6.75 -2022-10-查看项目 Blurring Diffusion Models- ON CIFAR10 2022 SOTA! FID 3.17 Diffusion2022-09-查看项目 ...
本文提出了UFOGen,这是一种新颖的生成模型,专为超快速、一步到位的文本到图像合成而设计。与传统方法侧重于改进采样器或采用蒸馏技术来进行扩散模型不同,UFOGen采用了一种混合方法,将扩散模型与GAN目标相结合。通过利用新引入的扩散-GAN目标和预训练扩散模型的初始化,UFOGen能够在一个步骤中高效地生成以文本描述为条...
该模型在布局到图像任务的零样本表现显著优于之前的最新技术水平,展示了在大型预训练生成模型的基础上进行下游任务建模的强大能力。本文总结认为,GLIGEN是推进文本到图像合成领域和扩展预训练模型在各种应用中能力的有前途的方向。 本文的一个limitation是,所提出的GLIGEN模型需要大量的训练数据才能实现良好的性能。另一个...
然而,现有的文本-视频生成方法需要极其高昂的计算资源和超大规模的文本-视频数据集(如:CogVideo、Gen-1),对大多数用户来说,成本较高。此外,很多时候单纯使用文本提示生成视频,生成的内容较为抽象,不一定符合用户的需求。因此,在某些情况下,用户需要提供参考视频,并通过文本提示来引导模型进行文本视频生成。与...
ChatPainter: Improving Text to Image Generation using Dialogue 利用对话来改善文字生成图片 为了解决文字描述中含有多个目标的问题,本文提出了一个利用对话提供更多的额外信息。因为通常一个文本描述是不能够捕获图片中所有的细节信息而且模型也不能够知道图像中的目标对应了描述中的哪一个单词。
It is important to note that our model GLIGEN is designed for open-world grounded text-to-image generation with caption and various condition inputs (e.g. bounding box). However, we also recognize the importance of responsible AI considerations and the need to clearly communicate the capabilitie...
然而,现有的文本-视频生成方法需要极其高昂的计算资源和超大规模的文本-视频数据集(如:CogVideo、Gen-1),对大多数用户来说,成本较高。此外,很多时候单纯使用文本提示生成视频,生成的内容较为抽象,不一定符合用户的需求。因此,在某些情况下,用户需要提供参考视频,并通过文本提示来引导模型进行文本视频生成。与之对应,...
Once on the platform, use the Menu icon on the top left to navigate to the Training page. The Training page showcases several JupyterLab workshops you can try on the Intel Tiber Developer Cloud, including trainings in AI, AI with Intel Gaudi 2 ...
Chunyuan Li3¶, Yong Jae Lee1¶ 1University of Wisconsin-Madison 2Columbia University 3Microsoft https://gligen.github.io/ Abstract Large-scale text-to-image diffusion models have made amazing advances. However, the status quo is to use text input alone, which can impede ...