librosa提取的mfcc的格式是什么样的？

f = librosa.load('w.wav')
get_mfcc = librosa.feature.mfcc(y=f[0], sr=8000, n_mfcc=12)

w.wav是一个0.5s的录音文件，采样率8000，双声道，16位深。也就是说有4000个采样点。按照默认的帧长2048，帧移512来计算，这里有int[(4000-2048)/512] + 1帧(4帧)。我以为结果输出的mfcc会是 12x4 的矩阵结果输出了 12x8的。有没有大佬知道列数到底和时间和帧长有什么关系？是不是录音格式的问题？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
jinsple 2021-07-05 16:27
关注
我觉得是双声道，所以是两段波形，一段是12x4，两段就是12x8

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

matlab如何将mfcc提取的特征变成模型 matlab 机器学习语音识别
2023-04-07 12:05

回答 2 已采纳把所有人的mfcc特征合成一个特征矩阵，然后80%训练20%测试，用SVM分类：比如： % 假设你有五个人的mfcc特征矩阵，分别为A、B、C、D和E。 % 每个特征矩阵包含n个样本，每个样本由m个m
python: mfcc 有没有人帮我解读一下这一句是什么意思 python
2022-03-29 21:14

回答 1 已采纳 dct变化后返回列表的所有行、第1列到第num_ceps列（切片）
矩阵的维数问题（想统一不同市场音频mfcc的维数）。 python 开发语言
2021-01-07 15:17

回答 4 已采纳你的矩阵是numpy 格式吧。用这个函数试试？这个是我的例子 d1=np.array([[1,2,3,4,5,1],[1,2,3,4,5,2],[1,2,3,4,5,3],[1,2,3,4,5,4
librosa 语音库（四）librosa.feature.mfcc
2022-03-10 16:41

mingqian_chu的博客 LibROSA（本文使用的版本是0.6.3）中的mfcc函数可以用来提取音频的梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients，MFCCs）特征，MFCC被广泛应用于语音识别。 LibROSA的mfcc函数源码如下： # -- Mel ...
MATLAB 未定义变量 "tdata" 或类 "tdata" c语言 matlab
2021-12-26 22:26

回答 1 已采纳你好，把正常运行的那些数据，你也需要一个个生成好，比如tdata这种，当然还有其他的变量，都保存成y.mat即可
fisher特征选择原理 python 自然语言处理
2022-12-09 16:18

回答 1 已采纳望采纳可以使用Python的librosa库来计算MFCC特征，并使用sklearn库中的Fisher分类器来计算每个维度的贡献度。下面代码示例： import librosa import num
TypeError: '_AtIndexer' object is not callable python tensorflow 深度学习神经网络自然语言处理
2020-12-17 19:28

回答 6 已采纳对的，给个采纳吧
语音识别特征提取（Fbank和MFCC）
2023-07-02 21:29

又困又爱睡的博客 mfcc和fbank特征提取
智能家居安防系统的智能化升级：基于AI技术的创新技术
2023-07-01 03:55

禅与计算机程序设计艺术的博客智能家居安防系统的核心技术在于AI技术的应用。通过引入人脸识别技术，可以对用户进行身份认证，确保家庭安全。运动检测技术可以监测用户的行为，为是否有人入侵提供依据。声音识别技术则可以检测用户声音中的异常，...
【AI】PaddlePaddle实现自动语音识别
2023-04-10 09:34

TheLongir的博客在语音特征提取过程中，将来自音频数据的语音信号转化为机器学习算法能够处理的形式，例如用梅尔频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCCs）等特征来描述语音信号。在声学模型训练过程中，使用大量...
声音领域的算法库一般有librosa、essentia、torchaudio、深度学习等
2020-12-23 09:08

c2a2o2的博客这个领域的算法库一般有librosa、essentia、torchaudio、深度学习等。这个领域目前的工程套路是：首先声音是一维的时域信号，但是计算机看了觉得没啥用（你看wav文件那些采样点，这些数字能说明啥呀）；P.S. 人的...
使用XGBoost进行环境声音分类
2020-09-06 21:35

非典型废言的博客目录 1.环境声音分类特征 1.1 梅尔频率倒谱系数 1.2 过零数/过零率 1.3 谱对比度 ...环境音多种多样，不同的环境语音具有较大的差别，如何提取有效的特征是环境音分类的关键。由于本文采用的是..
人工智能小白日记语音情感分析探索之1 相关调研及DNN实验
2019-03-14 18:09

狂奔的CD的博客 人工智能小白日记之101语音情感分析探索之1 相关调研前言相关资源1 刷本攻略2 研究路线2-1 常规语音情感分类2-1-1 特征提取前言来不及把基础教程全部看完了，后面有机会慢慢看。顺便预留下位置，标签跳到101。这...
说话人性别识别——语音检测初探
2022-03-30 11:41

colourmind的博客二、特征抽取 librosa 由于librosa库提供的特征提取API比较丰富，便选择了该库进行Mfcc和Fbank的提取。这里没啥好聊的，原理部分mfcc和fbank计算过程比较复杂详见——语音信号处理之（四）梅尔频率倒谱系数（MFCC）...
nnAudio的简单介绍
2023-03-29 18:23

mingqian_chu的博客由于速度快，它允许实时提取光谱图，而无需在磁盘上存储任何光谱图。此外，这种方法还允许在波形到谱图转换层上进行反向传播，因此，转换过程可以进行训练，从而进一步优化神经网络所训练的特定任务的波形到谱线图...
基于TensorFlow实现的自动语音识别（附项目资源）
2023-08-15 17:04

粥粥坠腻害的博客随着深度学习和人工智能的发展，预计ASR技术将会不断进步并应用于更多领域。 1.2 技术原理 ASR的输入是语音片段，输出是对应的文本内容。使用深度神经网络（Deep Neural Networks， DNN）实现ASR的一般流程如下。从...
如何学习训练大模型——100条建议（附详细说明）
2023-11-07 20:08

科学禅道的博客倫理和法律：了解人工智能伦理、法律和隐私问题，确保您的项目遵守相关法规和伦理准则。持续学习：深度学习领域不断演进，保持好奇心和学习动力是非常重要的。参加会议、研讨会和在线课程，与领域内的专家保持联系...
音频数据建模全流程代码示例：通过讲话人的声音进行年龄预测
2022-03-05 17:00

数据派THU的博客 # Extract 'n_mfcc' numbers of MFCCs components (here 20) x_mfccs = librosa.feature.mfcc(y, sr=sr, n_mfcc=20) # Plot MFCCs plt.figure(figsize=(12, 4)) librosa.display.specshow(x_mfccs, sr=sr, x_axis=...
音频数据的建模全流程代码示例：通过讲话人的声音进行年龄预测
2022-02-24 09:20

deephub的博客 # Extract 'n_mfcc' numbers of MFCCs components (here 20) x_mfccs = librosa.feature.mfcc(y, sr=sr, n_mfcc=20) # Plot MFCCs plt.figure(figsize=(12, 4)) librosa.display.specshow(x_mfccs, sr=sr, x_axis=...
情感解决方案：如何利用人工智能帮助我们管理情绪
2024-01-10 01:47

禅与计算机程序设计艺术的博客情感解决方案是一种利用人工智能技术来帮助人们管理情绪的方法。随着人工智能技术的发展，情感解决方案已经成为一种可行的方法，可以帮助人们更好地理解和管理自己的情绪。这篇文章将讨论情感解决方案的背景、核心...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

librosa提取的mfcc的格式是什么样的？

1条回答 默认 最新

悬赏问题

1条回答默认最新