具体环境如下: # 系统环境Ubuntu 22.04 LTS# 显卡环境NVIDIA-SMI 470.182.03 Driver Version: 470.182.03 CUDA Version: 11.4# python环境Python 3.10# GPU环境Tesla T4 16G *1# CPU环境8核 32GB 365404354399d97e8333b.png 87053539fd2c945364ffb.png 音频处理 为了训练,我们需要将音频文件分离成人声和伴奏两个...
这个项目专注于歌唱语音转换(SVC)而不是文本到语音(TTS),因其在声音转换方面的高质量表现而受到关注,并且曾经用于制作了网络上流行的 「AI孙燕姿」 等作品。 今天我也安装和使用了一下,现把操作步骤分享一下。 因为我是在Colab下运行的, 为防止GPU时长不够,所以训练步数不多,只有800步,主要是先测试一个整个流...
我使用的是腾讯云GPU计算型GN7服务器,Ubuntu18.04,8核 32GB 5Mbps(抢的45元15天的服务器,不用白不用),还有一些配置如下图: NVIDIA 说在前面: 文件传输🌱: 为了方便服务器与主机间的文件传输,推荐使用WinSCP这个软件,输入: 1.主机名(服务器公网IP地址) 2.端口号(默认22) 3.用户名(默认ubuntu) 4.密码(...
山楂在使用so-vits-svc进行AI歌曲翻唱的时候,选择了Colab作为实验环境。虽然也可以在本地运行,但Colab的GPU资源更加方便。我们需要一些工具和素材,下面就给大家详细讲讲。 必备工具 音频切分工具 提取干音工具 硬件和素材 如果你打算在本地运行,需要确认你...
pip install faiss-cpu或pip install faiss-gpu 当然也可以用conda指令来安装 参考文章:https://cloud.tencent.com/developer/ask/sof/108535502 另外,fairseq安装完成后,可能会出现以下错误,不允许字段common的可变默认值 ValueError: mutable default <class 'fairseq.dataclass.configs.CommonConfig'> for field common...
so-vits-svc是基于VITS的开源项目,VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种结合变分推理、标准化流和对抗训练的高表现力语音合成模型。 环境 本文章使用的是腾讯云GPU计算型GN7,具体环境如下: 代码语言:shell 复制 # 系统环境 Ubuntu 22.04 LTS # 显卡环境 NV...
训练必须使用 GPU 进行训练!推理目前分为命令行推理和WebUI 推理,对速度要求不高的话 CPU 和 GPU 均可使用。 如需自己训练,请准备至少 6G 以上专用显存的 NVIDIA 显卡。 请确保电脑的虚拟内存设置到30G 以上,并且最好设置在固态硬盘,不然会很慢。 云端训练建议使用 AutoDL 平台。若你会使用 Google Colab,你也...
是飞桨免费提供给大家的,这个项目是梅花为了大家都能用上免费GPU而自发制作的并且重写了文档帮助大家能够快速熟悉飞桨平台。梅花大家也能发扬这种开源精神,将自己训练的模型分享给他人进行使用。建议分享到国内平台(毕竟训练的这一套已经全都用的是国内的了),当然分享到国外平台也是没有关系的,完全看个人喜好了。(...
duration:训练时音频切片时长,可根据显存大小调整,注意,该值必须小于训练集内音频的最短时间! batch_size:单次训练加载到 GPU 的数据量,调整到低于显存容量的大小即可 timesteps: 扩散模型总步数,默认为 1000. k_step_max: 训练时可仅训练k_step_max步扩散以节约训练时间,注意,该值必须小于timesteps,0 为训练...
镜像选择:在官方镜像中选择stable-diffusion-webui-env:pytorch1.13-gpu-py310-cu117-ubuntu22.04。 步骤一:在DSW中打开教程文件 进入PAI-DSW开发环境。 PAI控制台。 在左侧导航栏单击工作空间列表,在工作空间列表页面中单击待操作的工作空间名称,进入对应工作空间内。