so-vits-svc4声音推理后，原音频人声与训练的人声重合，什么原因？如何生成纯粹的目标人声？

我在云服务器上用so-vits-svc4训练了一个声音模型，一般一万步时就差不多了，我想效果更好一些，训练集准备了合计三个半小时左右的目标人声，并且训练了将近五万步，这时我的模型效果应该非常好了，但是我在进行声音推理时，生成的音频听起来是两个人同时说话，声音大的是我拿来推理的音频人声，还有一个声音小的是我模型训练出来的目标人声。

我现在想到的可能原因是：
1、训练集中的三个半小时虽然人声单独分离出来了，但是因为数量庞大，有一部分时间中含有除了目标以外的人声。
2、推理用的音频人声是男声，模型训练出来的是女声。
3、训练时间太久，以至于训练效果太好，将训练集中的目标以外人声中的男声也加强训练到了。

我的训练操作过程应该是没问题，推理操作过程也应该是没问题的。

请问有知道这是什么原因得吗？有没有解决办法？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-sinJack 2023-07-20 09:44
关注
可能有几个原因导致推理时生成的音频中同时包含了两个人说话的声音：

训练集中含有除目标人声以外的其他人声：即使训练集中的人声已经被单独分离出来，但如果其中还包含其他人的声音，模型可能会学习到这些额外的声音特征，并在推理时将其加入到生成的音频中。为了解决这个问题，您可以尝试使用更纯净、只包含目标人声的训练集。

推理用的音频与模型训练出来的目标人声不匹配：如果推理时使用了与模型训练时不同性别或不同类型（如儿童、老年人等）的音频作为输入，模型可能无法正确处理这种情况。确保在推理时使用与模型训练时相似类型和性别的音频可以改善结果。

过度拟合：如果模型在训练过程中过度拟合了训练集，即过于适应了训练数据中特定样本或特征，可能会导致在推理时生成不符合预期的结果。为了解决这个问题，您可以尝试增加正则化技术（如dropout）或减少训练步数。

解决办法可能包括：

重新准备一个更纯净、只包含目标人声的训练集。
确保在推理时使用与模型训练时相似类型和性别的音频作为输入。
调整模型架构和超参数，以避免过度拟合。
尝试使用其他方法或技术来提高分离效果，例如引入语义信息或利用深度学习中其他相关领域（如语音增强、语音识别等）的技术。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

so-vits-svc-4.1-Stable
2023-12-26 22:05

从"so-vits-svc-4.1-Stable"的文件名来看，我们可以推测这可能是一个专为声音处理设计的库，尤其是与语音转换相关的服务。该库可能包括以下关键功能： 1. **语音识别**：将人类语言转换为可处理的数据，用于自动...
AI 翻唱必备神器！So-VITS-SVC 一键安装包下载
2024-07-22 10:49

大致实现原理就是，使用so-vits-svc这个工具先提取出你的声音的音色训练成模型，然后提取某个歌曲去音效的人声，通过so-vits-svc将原歌曲人声转换成你的人声，再配上音效，这样这首歌就翻唱完成了。下面讲一下本地...
人工智能_语音转换_so-vits-svc_本地部署教程_1744166056.zip
2025-04-09 14:25

4. 系统配置：可能涉及如何配置so-vits-svc系统的参数文件，包括输入输出设置、语音转换效果的相关参数调整等。 5. 运行与测试：介绍如何运行so-vits-svc系统，包括各种测试场景下的使用方法和常见问题的解决。 6....
基于So-VITS-SVC语音合成几种不同的推理方法
2024-03-27 15:21

Mr数据杨的博客文章详细说明了不同参数的作用和配置方法，涵盖了模型推理、音频增强、设备控制等多个方面，为开发者在各类音频项目中的实际应用奠定了扎实的基础。这种集成性的指导不仅提升了语音克隆的易用性，还使模型在不同使用...
So-VITS-SVC 4.x所用模型文件
2024-10-25 14:37

文件包含 checkpoint_best_legacy_500.pt hubert_base.pt hubert-soft-0d54a1f4.pt medium.pt large-v2.pt chinese-hubert-large-fairseq-ckpt.pt DPHuBERT-sp0.75.pth WavLM-Base+.pt ...
音频处理_SO-VITS-SVC_40_人声转换_批量处理__1744173120.zip
2025-04-09 14:26

首先，“音频处理_SO-VITS-SVC_40_人声转换_批量处理__1744173120.zip”这个标题暗示了压缩包内包含的内容与音频处理相关，特别是与人声转换技术相关。SO-VITS-SVC可能指代的是一种特定的人声转换软件或技术，其中...
音频处理_人工智能_语音转换_so-vits-SVC_音乐制_1744171817.zip
2025-04-13 16:36

文件名为“音频处理_人工智能_语音转换_so-vits-SVC_音乐制_1744171817.zip”，暗示了内容与音频处理技术和人工智能在语音转换领域的应用相关。so-vits-SVC可能是一个具体的技术或项目名称。此外，压缩包内包含的...
So-VITS-SVC 本地部署使用帮助文档及 Colab 笔记本提供
2025-09-08 00:12

So-VITS-SVC 本地部署操作使用帮助文档，专门为用户提供详细的使用指导，同时还配备了 Colab 笔记本以辅助相关操作；So-VITS-SVC Local Deployment Document，为满足用户在本地部署过程中的文档需求而提供，并且同步...
基于So-VITS-SVC的API实现批量语音合成
2024-03-27 17:14

Mr数据杨的博客定义了API的URL和表单数据，这些数据将用于处理音频文件，例如音频变调、采样率调整和指定说话人ID等。先看一下批量执行的结果，我这里是处理《红楼梦》文件夹下全部的内容，处理每个片段然后用。文件按文件名中的...
so-vits-svc-Chinese-Detaild-Documents-清华镜像源地址
2025-04-24 06:02

在本例中，“so-vits-svc-Chinese-Detaild-Documents-清华镜像源地址”可能是一份关于so-vits-svc项目的详细文档，该项目是一个与中文有关的服务或软件，并且文档被放置在了清华大学的镜像源地址上。这样，用户可以...
so-vits-svc音色克隆实现[项目代码]
2025-11-18 14:37

本文深入探讨了so-vits-svc 4.1音色克隆项目的实现方法，该项目通过提供详细的实现指南，包括从环境搭建到模型训练和推理的全过程，使得开发者能够更加便捷地进行音色克隆技术的研究和应用开发。环境搭建是进行...
再探so-vits-svc
2024-04-18 16:01

唯鹿的博客去年体验了一遍so-vits-svc 4.1，做了一个AI杰伦的模型。按照当时的条件来说，结果我是比较满意的。最近有个需求，想做AI配音，大致就是先将文字转成语音，然后通过修改音色实现类似真人说话的效果。遇到问题起初...
AIGC工具平台-So-VITS-SVC语音合成
2025-06-17 13:02

Mr数据杨的博客本文介绍So-VITS-SVC语音合成系统的WebUI操作指南，该系统整合声音合成与变声功能，提供可视化界面简化操作流程。文章详细解析软件界面分区：推理模块用于声音合成与参数调节；训练模块支持模型配置与训练；小工具区...
ai唱歌---So-VITS-SVC使用教程
2024-08-15 22:31

千万小白的博客 So-VITS-SVC可以通过训练某人的音声，使音频转化为目标声音，实现歌声转换的功能，本篇文章将教你如何从0开始训练自己的模型并用其来推理。
so-vits-svc4.0 中文详细安装、训练、推理使用教程
2023-04-18 22:27

Sucial的博客 so-vits-svc4.0 中文详细安装、训练、推理使用教程
https://github.com/PlayVoice/so-vits-svc 预训练文件
2023-03-14 10:35

https://github.com/PlayVoice/so-vits-svc 预训练文件
这是一个使用so-vits-svc进行ai翻唱的mirai插件.zip
2025-11-20 09:13

利用so-vits-svc技术，机器人可以模仿各种声音，实现高质量的AI翻唱。这项功能不仅为用户提供了音乐享受，还为音乐爱好者提供了一个全新的创意平台。通过与机器人的互动，用户可以听到自己喜欢的歌曲由不同的声音...
基于So-VITS-SVC音频合成异常的解决办法
2023-06-27 08:41

Mr数据杨的博客随后重点介绍了微软TTS服务的实现流程：获取API访问令牌、文本分段处理（需控制单段长度）、逐段生成音频并合并。代码示例涵盖了从配置参数、HTTP请求到音频合成的完整链路，有效解决了长音频生成中的失真问题。该...
innnky_so-vits-svc_1744167609.zip
2025-04-09 14:25

so-vits-svc可能是声码器的基础模块，而so-vits-svc-32k可能表明这个模块或配置支持32kHz的采样率，这是音频文件中常用的高保真采样率。综合以上信息，我们可以推测这个压缩包很可能与数字音频处理、特别是语音...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 7月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 7月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月11日

so-vits-svc4声音推理后，原音频人声与训练的人声重合，什么原因？如何生成纯粹的目标人声？

4条回答 默认 最新

问题事件

4条回答默认最新