Kyutai 强调负责任的 AI 使用,通过嵌入水印来检测 AI 生成的音频,这一功能目前仍在开发中。将 Moshi 作为开源项目发布,彰显了 Kyutai 对透明度和 AI 社区内协作开发的承诺。 Moshi 的核心是一个处理语音输入和输出的 70 亿参数多模态语言模型。该模型采用双通道输入 / 输出系统,同时生成文本 token 和音频编解码...
Fish-Speech:开源的TTS项目,语音生成作者: 好邻居 发布时间:2024-07-10 10:52:37 阅读: 3258 正文 Fish-Speechv1.2 Fish-Speech是一个开源的TTS项目,开源地址在:fish-speech,上一篇: Seed-TTS:字节的的语音生成,太逼真太形象了 下一篇: ollama:大模型运行平台,支持cpu运行大模型 ...
阿里通义实验室最新发布了开源语音大模型项目 FunAudioLLM,包含两个模型:SenseVoice 和 CosyVoice。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测,支持超过 50 种语言,效果优于 Whisper 模型,中文与粤语识别提升 50% 以上。CosyVoice 则专注于自然语音生成,支持中英日粤韩 5 种语言的生成,能够在...
星辰超多方言语音识别大模型v1.0,由30万小时无标注多方言语音数据进行预训练,并利用内部30种有标注数据进行微调,打破单一模型只能识别特定单一方言的困境,可支持理解粤语、上海话、四川话、温州话等30种方言 本次开源三个模型:两个30万小时无标注语音预训练模型和一个KeSpeech数据集8种方言微调模型。发布版本和下载链...