我需要训练一个16K采样率的底模,使用了混合说话和歌声数据集,总共30000多条数据,训练到200K步,Mel loss到了在14左右,推理时有电流音。请问一下底模训练时使用了多大规模的数据,训练了多久,Mel loss到了多少呢 日志 无 截图so-vits-svc、logs/44k文件夹并粘贴到此处 补充说明 hop size = 320 upsample = 10,...