一、下载so-vits-svc 1. 创建新的conda环境 2. Git clone项目 3. 安装所需的Python环境 4. 下载预训练模型文件 二、准备训练集 1. 歌曲下载 2. 提取人声 3. 音频切片 三、模型训练 1. 导入训练集 2. 开始训练 四、音色替换 1. 准备干净的人声以及伴奏 2. 打开WebUI 五、人声伴奏混合 So-vits-svc...
so-vits-svc是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理(variational inference)、标准化流(normalizing flows)和对抗训练的高表现力语音合成模型 不过千万别被chatgpt骗了,生生把一个语言模型说成图像分类模型(version:3.5) gpt版本...
所以生成出来的歌声也就适合低吟浅唱,遇到高音、副歌部分,生成的声音穿透力很不够。所以大家要想训练出唱歌好听的模型,打铁一定要自身硬。 原曲的vocal 基于我的模型训练出来的歌声vocal 可以看到原曲的vocal频谱图,能量均匀分布在高中低音。而生成的我的歌声,则只在低音部分有能量。这是我训练数据本身的泛音个数就...
双击so-vits-svc文件夹里的启动webui.bat,会弹出一个网页。 选择模型文件。 需要选择主模型、主模型配置文件、扩散模型和扩散模型配置文件。 模型文件有的放了步数不同的两个,效果可能略微不同,请多多尝试。 点击加载模型文件夹复制位置正确的话So-vits 说话人位置会出现歌手名。 把准备好的干音拖进框框。 选择...
本文将从环境搭建、依赖安装、数据预处理、模型训练与推理等方面,为用户提供一份详尽的使用教程。 一、项目环境搭建 创建Anaconda环境: 打开Anaconda Prompt,新建一个名为so-vits-svc的环境,并指定Python版本为3.8.9或3.9(确保版本兼容,以避免后续库安装问题)。 conda create --name=so-vits-svc python=3.8.9 #...
so-vits-svc正是这样一种深度学习模型,它通过分析声音样本,提取关键特征,并据此生成与原始声音高度相似的新声音。 so-vits-svc的应用场景 so-vits-svc声音克隆技术在多个领域具有广泛的应用前景。在教育领域,通过克隆特定教师或朗读者的声音,可以为学生提供更加亲切和个性化的有声教材。在游戏娱乐领域,个性化的声音是...
VITS是从文本到声音,文本的编码长度和声音的不一样的,所以需要时长预测,强制匹配复制 SO-VITs是从声音到声音,其实更加简单了,声音的时长是相同的,直接就可以match 但是为了使用VITS,将输入的音频要转换成类似文本的特征,即消除说话人的音色特征 这样就可以套用简化的VITS模型 ...
wav_filename: 待转换的歌曲model_filename: 模型文件名(如G_0.pth)speaker: 原始数据集的文件夹名config_filename: 配置文件名(如config.json) 执行推理后,生成的歌曲文件会在result目录下。 使用体验 山楂在Colab上运行so-vits-svc时,进行了大约800...
so-vits-svc是在Transformer模型的基础上进行了改进,使用了一种称为"ViT"(Vision Transformer)的变体,该变体使用自注意力机制对图像进行编码。此外,模型还包括一个在图像和文本之间进行互动的模块,以提高模型的性能。 so-vits-svc模型是一种强大的NLP模型,已被用于许多任务,例如生成式对话、文本生成、命名实体识别和...
1.SO-ViTS-SVC是一种基于Transformer网络的视觉分类模型,它通过引入自监督任务和多任务学习机制来增强模型的表示能力。2.定义输入层,将图像输入模型进行处理。3.设计Transformer网络的编码器和解码器结构,用于特征提取和分类推理。4.利用自监督任务的方法,如对图像进行旋转预测、路径评估等,进一步提升模型的表示能力...