矩阵的维数问题（想统一不同市场音频mfcc的维数）。

def get_wav_mfcc(wav_path):#(wav_path)
    y,sr = librosa.load(wav_path)
    wav_feature = mfcc( y, sr, numcep=13, winlen=0.025, winstep=0.01,
                       nfilt=26, nfft=1024, lowfreq=0, highfreq=None, preemph=0.97)
    print(wav_feature.shape)
 输出：由于自己音频有的市场不同，所以shape有（80，13）、（99，13）（122，13）等
    total_mfcc = []
    d_mfcc_feat = delta(wav_feature, 1)
    print('一阶差分mfcc:', d_mfcc_feat.shape)
 输出：shape同上：（80，13）、（99，13）（122 ，13）等
    d_mfcc_feat2 = delta(wav_feature, 2)
    print('二阶差分mfcc:', d_mfcc_feat2.shape)
 输出：shape同上：（80，13）、（99，13）（122，13）等
    feature = np.hstack((wav_feature, d_mfcc_feat, d_mfcc_feat2))
    print(feature.shape)
 输出：shape：（80，39）（99，39）（122，39）等
    total_mfcc.extend(feature)
    total_mfcc = np.array(total_mfcc)
    print(total_mfcc)
 输出：（80，39）（99，39）（122，39）等形式的矩阵

最终想要实现，通过补0或者其他方式，使得输出的矩阵统一成（99，39），需要接下来加些什么代 码？？？？？？
下面是本人代码，想补0，没有成功
    data = list(np.array( total_mfcc))
    print('list:',data)#根据整个输出
    while len(data)>122:#修改此数值
        del data[len(waveData[0])-1]
        del data[0]
    # print(len(data))
    while len(data)<122:
        data.append(0)
    print('add0:',data)
    data=np.array(data)
    return data

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bj_0163_bj 2021-01-07 15:59
关注
你的矩阵是numpy 格式吧。用这个函数试试？这个是我的例子

d1=np.array([[1,2,3,4,5,1],[1,2,3,4,5,2],[1,2,3,4,5,3],[1,2,3,4,5,4],[1,2,3,4,5,5],[1,2,3,4,5,6],[1,2,3,4,5,7],[1,2,3,4,5,8]]) d2=np.array([[1,2,3,4,5,1],[1,2,3,4,5,2],[1,2,3,4,5,3]]) print("原始：") print(d1) print(d2) def reshape(d): m,n=d.shape if m>=5: return d[0:5,:] else: return np.row_stack((d,[[0]*n]*(5-m))) d1=reshape(d1) d2=reshape(d2) print("转换后：") print(d1) print(d2)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

矩阵的维数问题（想统一不同市场音频mfcc的维数）。 python 开发语言
2021-01-07 15:17

回答 4 已采纳你的矩阵是numpy 格式吧。用这个函数试试？这个是我的例子 d1=np.array([[1,2,3,4,5,1],[1,2,3,4,5,2],[1,2,3,4,5,3],[1,2,3,4,5,4
matlab如何将mfcc提取的特征变成模型 matlab 机器学习语音识别
2023-04-07 12:05

回答 2 已采纳把所有人的mfcc特征合成一个特征矩阵，然后80%训练20%测试，用SVM分类：比如： % 假设你有五个人的mfcc特征矩阵，分别为A、B、C、D和E。 % 每个特征矩阵包含n个样本，每个样本由m个m
python: mfcc 有没有人帮我解读一下这一句是什么意思 python
2022-03-29 21:14

回答 1 已采纳 dct变化后返回列表的所有行、第1列到第num_ceps列（切片）
matlab说话代码-speech-recognition-system:语音识别，特征提取MFCC，动态编程
2021-05-22 09:26

音频信号图语音起点和终点检测离散傅立叶变换信号预加重信号压缩（线性预测编码） Speech_recognition_2.m 特征提取（MFCC）使用失真矩阵和动态规划的语音识别数据该项目中使用的数据是通过人工记录的。 “ 1...
fisher特征选择原理 python 自然语言处理
2022-12-09 16:18

回答 1 已采纳望采纳可以使用Python的librosa库来计算MFCC特征，并使用sklearn库中的Fisher分类器来计算每个维度的贡献度。下面代码示例： import librosa import num
TypeError: '_AtIndexer' object is not callable python tensorflow 深度学习神经网络自然语言处理
2020-12-17 19:28

回答 6 已采纳对的，给个采纳吧
MATLAB 未定义变量 "tdata" 或类 "tdata" c语言 matlab
2021-12-26 22:26

回答 1 已采纳你好，把正常运行的那些数据，你也需要一个个生成好，比如tdata这种，当然还有其他的变量，都保存成y.mat即可
基于文本和语音的双模态情感分析
2022-03-02 11:05

kaiyuan_sjtu的博客作者 | 陆昱博士追一科技来源 | DataFunTalk今天和大家分享的主题是基于文本和语音的双模态情感分析。大家可能会从自然语言处理的角度认为情感分析已经做得比较成熟了，缺少进一步...
语音识别MFCC系列（四）——MFCC特征参数提取
2018-12-03 23:44

谁是momo子的博客为什么512点的离散傅里叶变换只选前257个分量，离散余弦变换，为什么采样频率要大于真实信号最大频率的两倍，频谱混叠，频谱泄露，为什么要用窗函数等等），做知识储备，如果上述问题不懂，一定要去看哦，都可以找到...
数字视音频处理知识点小结
2019-09-29 21:45

WGH100817的博客视频结构化与非线性编辑部分镜头检测镜头是视频流数据的最小物理数据单元，所谓镜头检测就是给定有n个镜头的视频V，找到每个镜头的开始和结尾部分。...镜头边缘检测算法的实质及核心问题实质：找到一种或几...
利用Tensorflow 2框架搭建端到端的语音识别模型，并实践其性能
2023-08-13 00:47

禅与计算机程序设计艺术的博客端到端的语音识别方法的主要特点是把声学模型、语言模型、分类器等模块全部整合成一个系统，从而实现一体化、高效率、可靠的语音识别。在本文中，作者将详细介绍如何利用Tensorflow 2和Kaldi库进行端到端的语音识别...
他山之石 | 小米小爱Query识别
2022-06-02 11:05

kaiyuan_sjtu的博客 ② 非人机交互-模型模型采用的是基于语音和语义特征的深度神经网络模型，主要用到了四类特征：语音特征：通过对原始音频进行声学信号处理，包括分帧、加窗、FFT，得到一个二维向量，作为语音Encoder的输入。...
中文手语识别：结合序列标注和深度学习的方法
2023-09-10 01:21

禅与计算机程序设计艺术的博客重采样: 将重采样后的音频数据采样率统一为16kHz，降低计算复杂度；提取特征: 使用短时傅里叶变换(STFT)提取声道信号的时频特征；去除噪声: 通过高通滤波器或最大似然估计(MLE)消除噪声；滤波器后处理: 按要求...
一种新的多模态音乐情绪识别模型 Multimodal Music Emotion Recognition with Feature Decom
2023-08-11 02:27

禅与计算机程序设计艺术的博客随着多媒体时代的到来，音乐作为最具代表性的多媒体形式在人们的生活中越来越受...现有的基于特征的音乐情绪识别方法存在着很大的缺陷，主要原因在于无法处理多模态信息，即音频信号与文本信号之间缺乏统一的特征表示。
智能家居安防系统的智能化升级：基于AI技术的创新技术
2023-07-01 03:55

禅与计算机程序设计艺术的博客 , α d ′ \alpha_1,\alpha_2,...,\alpha_{d'} α1,α2,...,αd′ 其中， X X X是 n n n个样本的数据矩阵， k k k是类别数， n i n_i ni是类别 i i i的样本数， μ i \mu_i μi是类别 i i i的均值向量， ...
一个完整的MGMN音源分离模型学习路径 Multimodal Generative Adversarial Network for Music source separation
2023-08-06 01:38

禅与计算机程序设计艺术的博客音源分离（Music source separation）问题是指将一个混合信号中的不同音源分离出来并得到各自的单独波形的过程。由于不同类别的音乐同时出现在同一个空间中，因此对其进行音源分离非常重要。传统的方法主要集中在...
python提取语音信号MFCC
2019-12-15 14:53

嗨皮小弟的博客 python提取语音信号MFCC Mel频率倒谱系数（MFCC）的分析是基于人的听觉机理，即依据人的听觉实验结果来分析语音的频谱，期望获得好的语音特性。一、读取语音信号 import numpy as np import wave import ...
基于语音交互技术的智能语音助手系统的设计与实现
2023-06-29 04:56

禅与计算机程序设计艺术的博客 mfcc_feat = mfcc(signal, rate) model = hmm.GaussianHMM(n_components=3, covariance_type="diag", n_iter=1000) model.fit(mfcc_feat) logprob, path = model.decode(mfcc_feat, algorithm="viterbi") print(...
一种全新的Word Embedding方法——Continuous Bag-of-Words (CBOW) 方法 Word Embeddings & Neural Networks for NLP
2023-07-28 01:01

禅与计算机程序设计艺术的博客在语言识别、机器翻译等方面，人们对神经网络和深度学习的应用越来越关注，这也促使英特尔、微软、谷歌、Facebook、百度等科技巨头纷纷布局人工智能领域。近年来，随着语音识别技术的迅猛发展，端到端的语音识别系统...
语音识别技术如何推动智能家居发展？
2023-07-20 01:27

禅与计算机程序设计艺术的博客其中ASR指的是自动语音识别，它将一段音频信号转化为文字或命令，HMM模型通过统计学习方法对声学特征及语言学特征进行建模，通过观察到的语音信号和HMM模型参数估计出当前的语音状态，然后根据状态序列生成相应的...
没有解决我的问题, 去提问

悬赏问题

¥15 r语言神经网络自变量重要性分析
¥15 基于双目测规则物体尺寸
¥15 wegame打不开英雄联盟
¥15 公司的电脑，win10系统自带远程协助，访问家里个人电脑，提示出现内部错误，各种常规的设置都已经尝试，感觉公司对此功能进行了限制（我们是集团公司）
¥15 救！ENVI5.6深度学习初始化模型报错怎么办？
¥30 eclipse开启服务后，网页无法打开
¥30 雷达辐射源信号参考模型
¥15 html+css+js如何实现这样子的效果？
¥15 STM32单片机自主设计
¥15 如何在node.js中或者java中给wav格式的音频编码成sil格式呢

矩阵的维数问题（想统一不同市场音频mfcc的维数）。

4条回答 默认 最新

悬赏问题

4条回答默认最新