一、介绍 MaskGCT ( Masked G enerative C odec T Transformer ) 是一个完全非自回归的 TTS 模型,它不需要文本和语音监督之间的显式对齐信息,也不需要音素级持续时间预测。MaskGCT是一个两阶段模型:在第一阶段,该模型使用文本来预测从语音自监督学习 (SSL) 模型中提取的语义标记;在第二阶段,该模型预测以这些...
MaskGCT 是一个大规模的零样本 TTS 系统,利用全非自回归掩码生成编解码器 Transformer,无需文本与语音的对齐监督和音素级持续时间预测。MaskGCT 通过文本预测从语音自监督学习(SSL)模型中提取的语义标记,然后基于这些语义标记预测声学标记,实现了高质量的文本到语音合成。实验表明,MaskGCT 在语音质量、相似度和可...
优于现有的 SOTA 模型(如 CosyVoice 和 XTTS-v2) 从这张表格中可以看出,MaskGCT 模型在多个指标上表现优异,尤其是在以下几个方面: 1.SIM-O (相似度):MaskGCT 的相似度评分非常接近 Ground Truth,尤其在 SeedTTS 测试集(SeedTTS test-en 和 test-zh)上,SIM-O 值达到了 0.774 和 0.777,接近 Ground Trut...
MaskGCT 属于一个两阶段模型:在第一阶段,该模型凭借文本预测从语音自监督学习(SSL)模型中萃取的语义标记;在第二阶段,模型对以这些语义标记为条件的声学标记予以预测。MaskGCT 遵循掩码和预测的学习范式。在训练进程中,MaskGCT 会依据给定的条件和提示,学习预测被遮蔽的语义或声学标记。在推理过程里,该模型能够以并行...
MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。 MaskGCT,一种完全非自回归的TTS模型,使用掩码生成变压器来消除对文本和语音对齐信息的显式需求以及音素级时长预测。具体来说, 非自回归掩码生成变压器:首先,定义了一个离散表示序列( X ),并通过掩码过程( X_t = X \odot M_...
MaskGCT是一款革命性的AI声音克隆工具,具备超高声音质量,支持多语言,操作简单,无需复杂设置,完美适合内容创作者!快来体验这个黑科技吧! AI声音克隆新突破!MaskGCT让你一键变声,效果贼真实! 大家好啊!最近有没有被各种AI声音克隆刷屏?今天给大家介绍一个超强的新玩意儿 - MaskGCT!这可不是普通的文本转语音工具,而...
简介:MaskGCT是一种由国内团队开发的新型非自回归文本到语音合成模型,采用两阶段模型设计和掩码预测学习范式,无需显式对齐信息及音素级别持续时间预测,能高效生成高质量语音,达到近似人类水平。其开源发布标志着国产语音大模型技术的重大突破,具有广泛的应用前景和重要的科研价值。
TTS开源新王:MaskGCT!音色克隆语音生成能力神中神!借助AI配音,GPT-SoVITS、CosyVoice和F5-TTS四王同台PK。 2292 0 05:08 App 可能是本地端最方便的AI配音工具,F5-TTS软件内更新来了!一个整合包使用GPT-SoVITS/CosyVoice/F5TTS/CosyVoice! 1367 1 08:25 App AI配音/有声读物/TTSX 音模发音人添加教程 ...
MaskGCT-Windows is a Windows-compatible implementation ofMaskGCT: a state-of-the-art, zero-shot, non-autoregressive Text-to-Speech (TTS) model that eliminates the need for explicit text-speech alignment and duration prediction. This implementation allows users to leverage the model's powerful capa...
10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型「MaskGCT」正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,MaskGCT采用掩码生成模型与语音表征解耦编码技术,在声音克隆、跨语种合成、语音控制等任务环节中能够快速落地。