与将输入编码到连续空间的传统VAE不同,VQ - VAE使用离散码本嵌入来表示数据,防止后验坍塌问题[58]。Richard等人[46]提出了一种基于时间卷积网络(TCNN)的VAE方法来驱动Codec Avatars[35],而Voice2Face[5]提出了一种基于LSTM的条件VAE。MeshTalk[47]学习了一个分类潜在空间,而CodeTalker[61]使用VQ - VAE来学习...
具体地,所采用的3D VQ-VAE包含用于将3D形状编码到潜在空间的编码器Eφ和用于将潜在向量解码回到3D空间的解码器Dτ。给定通过T-SDF表示的输入形状,我们有 其中是潜在向量,潜在维度d小于3D形状维度D,Vq是将潜在变量z映射到码本Z中最近元素的量化步骤。对编码器Eφ、解码器Dτ和码本Z进行了联合优化。我们使用重建...
LOM使用针对不同输入方式(如音频、文本、动作等)的专用分词器来处理这些数据。具体来说,LOM训练了一个组合式的身体动作VQ-VAE模型,将面部、手部、上半身和下半身的动作转化为离散的“符号”,并将这些不同的符号集合(包括音频和文本)结合成一个统一的多模态词汇表。在训练过程中,将来自不同模态的混合符号作...
4.6.1 Object-level Generation Shape-GPT [283] 将3D形状量化为离散的“形状词”标记,使用特定于形状的3D VQ-VAE。这使得形状数据能够与文本和图像一同整合进T5语言模型[139]的多模态输入中。这种多模态表示使T5能够学习跨模态交互,例如文本到形状生成以及形状编辑/补全。GPT4Point [268] 采用双流方法——通过Poi...
VQ-VAE:提取特征并复用 基于基于矢量量化变分自编码器(VQ-VAE)[5]。近几项研究表明,VQ-VAE提供了一个有效且紧凑的动作表征,许多运动学中的动作生成模型[6,7,8]已经证明了VQ-VAE这种离散但紧凑的隐空间表示适用于在大型数据集上训练,并可应用到各种下游任务中。受此启发,我们将VQ-VAE训练得来的动作表征和GPT...
当前常见的网格提取方法依赖于密集的面,而忽略了几何特征,导致了效率低下、后续处理复杂、质量较差等问题。MeshAnything 模型将网格提取作为一个生成问题来处理,模仿人类从3D表示中构建形状一致的网格的过程。MeshAnything 的架构包括一个 VQ-VAE 和一个形状解码转换器。首先使用 VQ-VAE 学习网格词汇,然后在此词汇表...
一方面,为了精确捕捉局部细节形状信息,利用VQ-VAE来索引基于广泛任务训练数据的紧凑codebook中的局部几何。另一方面,引入离散扩散生成器以模拟不同token之间的固有结构依赖关系。 同时,开发了一种多频融合模块(multi-frequency fusion module,MFM),以多频上下文信息为指导,抑制高频形状特征波动。让3D形状先验模型拥有高保真...
01 回顾2D AIGC的高速发展 2D AIGC的发展可以简单概括为以下三个发展阶段:第一阶段:智能图像编辑 早在2014年,随着生成对抗网络(GAN,典型后续工作StyleGAN)和变分自编码器(VAE,典型后续工作VQVAE,alignDRAW)的提出,AI模型便开始被广泛运用到2D图片的智能生成与编辑中。早期的AI模型主要被用于学习一些相对...
残差量化模型 (Residual VQ-VAE),将人体动作转换为多层离散的动作标记(Token)。基层(即第一层)的动作标记包含了动作的基本信息,而残差层则对应更细粒度的动作信息。 Masked Transformer:对基层的动作标记进行建模,采用随机比例的随机掩码,并根据文本信息预测被掩码的动作标记,用于生成基层动作标记。
残差量化模型 (Residual VQ-VAE),将人体动作转换为多层离散的动作标记(Token)。基层(即第一层)的动作标记包含了动作的基本信息,而残差层则对应更细粒度的动作信息。 Masked Transformer:对基层的动作标记进行建模,采用随机比例的随机掩码,并根据文本信息预测被掩码的动作标记,用于生成基层动作标记。