我在云服务器上用so-vits-svc4训练了一个声音模型,一般一万步时就差不多了,我想效果更好一些,训练集准备了合计三个半小时左右的目标人声,并且训练了将近五万步,这时我的模型效果应该非常好了,但是我在进行声音推理时,生成的音频听起来是两个人同时说话,声音大的是我拿来推理的音频人声,还有一个声音小的是我模型训练出来的目标人声。
我现在想到的可能原因是:
1、训练集中的三个半小时虽然人声单独分离出来了,但是因为数量庞大,有一部分时间中含有除了目标以外的人声。
2、推理用的音频人声是男声,模型训练出来的是女声。
3、训练时间太久,以至于训练效果太好,将训练集中的目标以外人声中的男声也加强训练到了。
我的训练操作过程应该是没问题,推理操作过程也应该是没问题的。
请问有知道这是什么原因得吗?有没有解决办法?