它以其小巧的体积和卓越的性能在 TTS 领域引起了广泛关注,并在 TTS Spaces Arena 中排名第一,超越了参数量更大的模型,如 XTTS v2、MetaVoice 和 Fish Speech。Kokoro-82M 的成功表明,传统的 TTS 模型可能具有比预期更陡峭的缩放法则,即在参数和训练数据量远低于其他模型的情况下也能达到顶尖水平。 模
字节跳动的CapCut TTS则以高质量的语音合成和便捷的操作体验受到青睐,可以快速生成多国语言及方言的语音,非常适合短视频制作。此模型的局限则在于功能相对单一,未能覆盖更多复杂的语音处理需求。 最后是免费的TTSMaker,这款工具提供了超过50种语言和300种风格的语音合成选项,操作简单且拥有美国版权。虽然它的语音合成质量...
GPT4o 0129最新版重拿竞技场第一,这个结果是,O3洗数据洗出来的,time test scaling的合成数据反哺传统scaling law(虽然数据质量并不是scaling law的范畴), 也算另一个纬度的左脚踩右脚。不过排名能看出来,数学确实辣鸡,也证明了我前几天说的,llm不会算数,加tts玩的话能强点,传统模型再牛逼本质上还是个信息熵...
据综合性能评估结果显示,GPT-4 排名第一,文心一言和 ChatGPT 3.5 分别排名第二三位,阿里云通义千问则排在第六位。