[图片] 01 概述 文本-图像生成(文生图)模型代表了人工智能 (AI) 技术的创作成就,在该模型中,用户输入对图片的描述文字后,即可获得由AI生成的虚拟图片,其中不少图片在拟真性、感染力等方面几乎可以媲美真实图片。近两年,文生图模型得到了快速的发展,并在艺术创造
文生图Diffusion Model技术的风头被语言模型LLM锁掩盖,资源、人才都涌入了LLM。语言是智能的中轴,掌握语...
混元DiT是一个基于Diffusion transformer的文本到图像生成模型,此模型具有中英文细粒度理解能力。为了构建混元DiT,我们精心设计了Transformer结构、文本编码器和位置编码。我们构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,我们训练了多模态大语言模型来优化图像的文本描述。最终...
近年来,文生图模型的快速发展让人们看到了 AI 技术在艺术创作领域的巨大潜力。然而,现有的主流文生图模型多以英文为训练语言,在中文理解方面存在局限性,导致生成的图像难以准确反映中文语境。为了填补这一空白,腾讯 AI 团队倾力打造了首个中文原生文生图模型——Hunyuan-DiT,并将其开源,旨在推动中文文生图领域的发展。
整个文生图(Text-to-Image)动手实践会分成两篇: 本篇将主要介绍预训练模型的部署和推理,其中包括:运行环境准备、角色权限配置、支持的主要推理参数、图像的压缩输出、提示工程(Prompt Engineering)、反向提示(Negative Prompting) 等内容。 下一篇将主要介绍预训练模型在客户数据集上的微调(Fine-tune),以及亚马逊云科技...
IT之家 10 月 14 日消息,智谱技术团队今天宣布开源文生图模型CogView3 及 CogView3-Plus-3B,该系列模型的能力已经上线“智谱清言”App。 据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段: 第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。
SDXL-Turbo模型 本实践使用的推理模型为SDXL-Turbo(Stable Diffusion XL Turbo),该模型是Stability AI在Stable Diffusion基于SDXL 1.0的蒸馏(Distillation)版本,专为实时合成的文生图场景服务。该模型能够确保即使在一到两个采样步骤,也能保持高的图片质量。
IT之家 2 月 15 日消息,据 Stability AI 官方新闻稿,Stability AI 日前推出了一款名为“Stable Cascade”的新一代文生图模型,该模型建立在 Würstchen 架构上,号称可以在消费级硬件上进行简单的训练和微调。 ▲ 图源 Stability AI 官方新闻稿(下同)
利用训练图片与非训练图片在初期扩散过程中的结构信息变化差异,本文提出了一种新的针对文生图扩散模型的成员推理攻击方法。具体地,将待攻击的图片输入文生图扩散模型的变分自编码器,得到压缩后的潜在表征。将潜在表征输入扩散模型的 U-Net 扩散加噪至较小的步数,得到含噪声的潜在表征,并将其直接通过文生图扩散模型的...
IT之家 8 月 14 日消息,埃隆・马斯克(Elon Musk)旗下 xAI 公司昨日(8 月 13 日)以 Beta 版本的形式,发布了 Grok-2 和 Grok-2 mini 两款 AI 模型,重点改善了推理能力。 Grok-2 和 Grok-2 mini IT之家翻译 xAI 官方博文内容如下: Grok-2 的早期预览版现已推出,在此前 Grok-1.5 的基础上又向前...