请问有关于多人声分离的方法吗？python或者matlab

感觉很多代码讲解的都是分离背景音乐和人声，但是如果一段音频是几个人在讲话，如何把每个人说的话分离出来呢?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

天元浪子优质创作者: python技术领域 2022-04-21 08:39

关注

试试独立成分分析（Independent Component Analysis，ICA）。不过，这并不容易实现，因为很多时候我们只有录音，并不知道房间里有几个人在讲话，因此独立成分分析又被称为盲源分离问题。如果预先知道有几个人讲话，这个问题就容易得多。以下内容摘自拙作《Python高手修炼之道》，仅供参考。

假设房间里有两位演讲者在讲话，他们发出的声音分别是 s1 和 s2，有两台录音设备记录了他们混合在一起的声音，得到的记录是 x1 和 x2。下面的代码用正弦波和三角波表示两位演讲者的声音 s1 和 s2，用两个合成信号 x1 和 x2 表示两台录音设备的记录数据，再使用Scikit-learn 的成分分析子模块 decomposition 提供的 FastICA 类来实现独立成分分析。

# -*- encoding: utf-8 -*-

"""
8.7.4 独立成分分析（ICA）
"""

import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import FastICA

plt.rcParams['font.sans-serif'] = ['FangSong']
plt.rcParams['axes.unicode_minus'] = False

# 用正弦波和三角波表示两位演讲者的声音s_1和s_2，两个合成信号x_1和x_2表示两台录音设备的记录数据

_x = np.linspace(0, 8*np.pi, 1000)
k1 = np.where(np.int_(0.5*_x/np.pi)%2==0, 1, -1)/np.pi
k2 = np.where(np.int_(_x/np.pi)%2==0, 1, 0)
k3 = np.where(np.int_(_x/np.pi)%2==0, 0, 1)

s1 = np.sin(_x) # 第1位演讲者的声音
s2 = _x%(np.pi)*k1*k2 + (np.pi-_x%(np.pi))*k1*k3 # 第2位演讲者的声音
x1 = 0.4*s1 + 0.5*s2 # 录音1
x2 = 1.2*s1 - 0.3*s2 # 录音2

plt.subplot(121)
plt.plot(_x, s1, label='s1')
plt.plot(_x, s2, label='s2')
plt.legend()
plt.subplot(122)
plt.plot(_x, x1, label='x1')
plt.plot(_x, x2, label='x2')
plt.legend()
plt.show()

# 从合成信号x_1和x_2中分离出s_1和s_2这样的独立音源

X = np.stack((x1,x2), axis=1) # 将两个信号合并成矩阵

fica = FastICA(n_components=2) # 快速独立成分分析类实例化
fica.fit(X)

X_ica = fica.transform(X) # 独立成分分析结果
print(X_ica.shape) # (1000, 2)

plt.plot(_x, X_ica[:,0], label='独立成分1')
plt.plot(_x, X_ica[:,1], label='独立成分2')
plt.legend()
plt.show()

结果如下图所示。

报告相同问题？

关注问题

4.MATLAB语言常用开发工具——《跟老吕学MATLAB》
2024-06-28 21:51

Python老吕的博客 MATLAB编辑器允许用户根据自己的习惯进行自定义设置，如更改字体、颜色、缩进等。这些设置可以提高用户的编程体验，使得代码更加易于阅读和维护。MATLAB调试器允许用户根据自己的需求自定义调试环境。用户可以设置...
你知道Python是什么意思吗？
2019-10-19 09:35

python婷児的博客在计算机中，它是一种编程语言。 Python（英语发音：/ˈpaɪθən/）, 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有...
double_合成语音分离_信号分离_语音信号分离.zip
2021-10-11 23:32

2. **代码**：可能包括用Python、MATLAB或其他编程语言实现的语音合成和信号分离算法。 3. **模型**：预先训练好的深度学习模型，可以直接用于合成语音或分离信号。 4. **文档**：描述实验设置、方法论和结果的PDF...
matlab 对mnist手写数字数据集进行判决分析_Python神经网络编程：手写数字的数据集MNIST...
2020-12-24 13:55

weixin_39871162的博客识别人的笔迹这个问题相对复杂，也非常模糊，因此这是一种检验人工智能的理想挑战。...为了让你对图像识别究竟有多难有一个感性认识，举个例子，人类有时候对图像中包含的内容有不同意见。人们很容易对...
Python的人脸识别系统设计与实现
2025-06-08 21:43

毕设工作室_wlzytw的博客基于Python的人脸识别系统设计与实现摘要随着人工智能的发展,人脸识别系统在我们的生活中越来越被广泛应用。人脸识别系统是指能够从数字图像或视频源中识别人的技术。人脸识别系统可以通过多种方法工作，但是，...
基于Python的人脸识别系统设计与实现
2024-05-02 21:01

毕设工作室_wlzytw的博客基于Python的人脸识别系统设计与实现摘要随着人工智能的发展,人脸识别系统在我们的生活中越来越被广泛应用。人脸识别系统是指能够从数字图像或视频源中识别人的技术。人脸识别系统可以通过多种方法工作，但是，...
MATLAB设计课题推荐及选择老师技巧
2022-10-23 21:20

MATLAB管家matlab674的博客 MATLAB设计课题推荐及选择老师技巧前言：时光稍纵即逝，一转眼又到了大四开学季，目前即将面临的是bs选题，以作为毕业前的最后一道工程项目。兴许你会说选题是下半年的事情，还早呢，下半年再说。其实你错了，我们不...
LaTeX 相对于 Word 有什么优势？
2022-03-19 10:05

小白学视觉的博客重复报表的生成，有时候要处理很多原始数据，计算、排版，每天都搞几遍会疯掉的，这种问题我一般写个VB，Python随便什么语言的脚本，处理数据然后自动生成LaTeX代码，调用编译器直接输出PDF。再进一步，直接生成个...
AList代码高亮功能：编程语言语法支持深度解析
2025-08-30 02:54

胡唯隽的博客在日常开发工作中，我们经常需要查看和分享代码文件。无论是审查同事的PR（Pull ...**痛点场景**：你是否有过这样的经历？ - 在网盘中查看代码文件时，看到的却是单调的黑白文本 - 需要下载代码到本地IDE才能获得...
python语言中文社区-python的汉语
2020-11-01 13:04

weixin_37988176的博客 sdk 3.0 实现了统一化，各个语言版本的 sdk具备使用方法相同、接口调用方式相同、错误码和返回包格式相同等优点。本文以 python sdk 3.0 为例，介绍如何使用、调试并接入腾讯云产品 api。目前已支持云服务器 cvm、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月21日

请问有关于多人声分离的方法吗？python或者matlab

2条回答 默认 最新

问题事件

2条回答默认最新