模型架构包含6层MMDiT和18层DiT block,特征维度为1024,使用音频VAE和FLAN-T5进行文本编码,并控制音频长度。训练过程包括在Wavcaps和AudioCaps数据集上的预训练、微调,以及使用CLAP模型和CRPO进行在线迭代对齐,优化模型性能。 在定量和人类主观评测中,TangoFlux超越了AudioLDM 2-large等模