更后续的资料查询中,发现codebook的概念居然来自VQ-VAE,所以不如先把codebook在VQVAE的概念学了,再来了解motion是如何灵活运用codebook的 近两年,有许多图像生成类任务的前沿工作都使用了一种叫做"codebook"的机制。追溯起来,codebook机制最早是在VQ-VAE论文中提出的。相比于普通的VAE,VQ-VAE能利用codebook机制把图像编码...
首先应用基于K-Means聚类的量化方法,为权重矩阵的每一列自适应地生成量化中心点,即codebook的方法。接着,描述了一种量化敏感度度量方法(离群顺序),用来识别对量化高度敏感的参数列。利用这一度量,进一步提出了两种策略来增强量化性能:列级自适应精度(AP)量化和列级自适应离群保留(OR),AP对不同列的weight进行精度...
codec模型解码器将语音token转换为语音流。 1. 单码本(Single-Codebook)Codec模型 单码本Codec模型是一种用于语音压缩和生成的技术,主要作用是将语音信号映射为离散的语音token(类似于语音的特征编码),并通过解码器将这些语音token还原为语音信号。 单码本的作用: 将语音信号进行压缩,以便模型以低维度的离散token表示...
(创建codebook时受 RQ-VAE 概念启发,定义含 N 个层级(从粗到细)、每层含 C 个编码的级联codebook,项目从每层选最优编码,用 N 个编码表示。) 训练阶段,codebook第一层依据输入项目嵌入向量将编码聚为 C 个中心作初始编码嵌入向量,用基于行为训练的 DCCF 生成的嵌入向量作项目嵌入向量,用其找第一层最近编码...
通过为移动和静态体素使用单独的codebook,同时保持统一的编码器和解码器,并适当地处理占用表示,MS-VAE有效地捕捉了每种体素类型的独特特征,从而改善了占用重建和泛化能力。 此外,整体VAE架构参考了OccWorld实现中的方法,具体将占用视为具有16个通道的2D数据,并使用2D VAE进行编码和解码。然而,为了保留三维信息的完整性...
1. 单码本(Single-Codebook)Codec模型 单码本Codec模型是一种用于语音压缩和生成的技术,主要作用是将语音信号映射为离散的语音token(类似于语音的特征编码),并通过解码器将这些语音token还原为语音信号。 单码本的作用: 将语音信号进行压缩,以便模型以低维度的离散token表示语音。
这些小块被进一步编码为一组离散的tokens,通过向量量化(Vector Quantization)将连续的特征映射到预定义的代码簇(codebook)。 图像生成(现在做不了): 在生成过程中,VQGAN可以将这些离散tokens解码回图像。 结合多模态任务: 在多模态任务中(如图像-文本联合建模),VQGAN可以用来将图像数据表示为离散的tokens,这些tokens可...
ID对应的特征表示;对于多模态理解任务,使用SigLIP编码器从图像中提取高维语义特征并将它们展平成一维序列,然后使用理解适配器将这些图像特征映射到预训练模型的输入空间;对于视觉生成任务,使用VQ Tokenizer 将图像转换为离散ID,并将ID序列展平成一维序列,然后使用生成适配器将与每个 ID 对应的codebook embedding映射到 ...
LCQ: Low-Rank Codebook based Quantization for Large Language Models Arxiv 2024 [Paper] LoQT: Low Rank Adapters for Quantized Training Arxiv 2024 [Paper] [Code] CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs Arxiv 2024 [Paper] [Code] I-LLM: Efficient Integer...
2025-02-27 UniCodec: Unified Audio Codec with Single Domain-Adaptive Codebook Yidi Jiang et.al. 2502.20067 null 2025-03-01 Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts Shulai Zhang et.al. 2502.19811 link 2025-02-26 Drop-Upcycling: Training Sparse Mixture of Ex...