在上一篇文章中,我推荐了一个SVC(Singing Voice Conversion)项目,歌声转换,也就是类似变声器的玩意,抽取一个人的声音作为训练数据,训练一个神经网络模型,学习他的声线;然后用模型在目标歌曲上做推理,即可实现用自己的声线唱目标歌曲: 我把我的声音训练成了AI模型,并让它唱了一首歌...(附超全面教程,你奶奶看...
这篇文章,我想介绍一个有手就行的超级傻瓜的TTS(Text-to-Speech,文本生成音频)项目。 微软、讯飞等等其实已经有非常成熟的TTS方案了,但是都是封装好的,没法去训练自己的声音(虽然他们有这个业务,但是普通人根本付不起那价格,就约等于没法训练)。 今天我们直接去训练自己的TTS,虽然效果略显粗糙,但是胜在有手就行,...
然后找到红框位置图标,点击使用浏览器打开。 然后你就会在浏览器打开一个新的标签页,可能会白屏1分钟左右,别慌,等着就行。 出现这个页面,就加载完成了,第一步当然是上传数据集啦,他们有几个要求,我给总结一下: 优质干声,不要有杂音,一定不要有。 20段以上的2到9秒的wav格式音频。 音频采样率必须在24000。
这篇文章,我想介绍一个有手就行的超级傻瓜的TTS(Text-to-Speech,文本生成音频)项目。 微软、讯飞等等其实已经有非常成熟的TTS方案了,但是都是封装好的,没法去训练自己的声音(虽然他们有这个业务,但是普通人根本付不起那价格,就约等于没法训练)。 今天我们直接去训练自己的TTS,虽然效果略显粗糙,但是胜在有手就行...
然后找到红框位置图标,点击使用浏览器打开。 然后你就会在浏览器打开一个新的标签页,可能会白屏1分钟左右,别慌,等着就行。 出现这个页面,就加载完成了,第一步当然是上传数据集啦,他们有几个要求,我给总结一下: 优质干声,不要有杂音,一定不要有。 20段以上的2到9秒的wav格式音频。 音频采样率必须在24000。
这篇文章,我想介绍一个有手就行的超级傻瓜的TTS(Text-to-Speech,文本生成音频)项目。 微软、讯飞等等其实已经有非常成熟的TTS方案了,但是都是封装好的,没法去训练自己的声音(虽然他们有这个业务,但是普通人根本付不起那价格,就约等于没法训练)。 今天我们直接去训练自己的TTS,虽然效果略显粗糙,但是胜在有手就行...