(DALL-E)Zero-Shot Text-to-Image Generation 引用: Ramesh A, Pavlov M, Goh G, et al. Zero-shot text-to-image generation[C]//International conference on machine learning. Pmlr, 2021: 8821-8831. 论文…
本文也就是DALL·E,用3.3 million image-text pairs训练了一个12B参数的autoregressive transformer,实现了高质量可控的text to image,同时也有zero-shot的能力 project page Method 自回归式的模型处理图片的时候,如果直接把像素拉成序列,当成image token来处理,如果图片分辨率过高,一方面会占用过多的内存,另一方面Likel...
从一种模态中检索出所需的样本,包括基于text检索images的text-to-image retrieval和基于images检索text的...
the decoder takes the text embedding extracted from the off-the-shelf CLIP encoder as a prefix e...
论文:《StructGPT: A General Framework for Large Language Model to Reason over Structured Data》 结构化数据以标准化… CLIP相关论文 戈上 欢迎交流 CLIP 一句话就是,基于图像和文本的对比学习策略,使用text encoder提取出文本的特征,使用image encoder提取出图像的特征,若文本和图片为正样本则使他们使对应的在...
给定多视图扩散模型(如MVDream, Zero-1-to-3, ImageDream等)生成的多视图图像,SIR算法重复优化三维参数,这不同于SDS算法中的单步优化。通过在三维参数训练中的其他改进,我们提出了一种叫做MicroDreamer的高效方法,可广泛运用于各种三维表示及三维生成任务。特别地,在单个A100 GPU上,MicroDreamer生成神经辐射场比SDS...
这篇文章介绍了 zero-shot dialog generation(ZSDG),它建立了仅使用小量数据就可以立刻应对新情况的神经对话系统。ZSDG 使得一个端到端的生成对话系统去应对新领域,仅仅需要提供领域描述,不需要提供训练数据。然后一个新颖的学习框架,action matching,被提出。这个算法能够学习一个交叉领域的向量空间,进而对对话回复进...
Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation|[pap...
Personalizing text-to-image generation using textual inversion. In Proc. of International Conference on Learning Representations (ICLR), 2023. Raki的读paper小记:An Image is Worth One Word Personalizing Text2Image using Textual Inversion 【论文笔记】An Image is Worth One Word: Personalizing Text-to-I...
local feature和global feature都经过一个Projection映射到相同的dim=dK,concat后得到Kfn∈R(L2+1)×dK。Kfn再和text embedding concat一起组成Multimodal Embedding。 利用Face Detection检测Multi-ID Input Image人脸的位置,并形成一个和原始图像尺寸一样的mask(512*512),1代表是人脸,0代表不是人脸。再SD的U-Net...