f = librosa.load('w.wav')
get_mfcc = librosa.feature.mfcc(y=f[0], sr=8000, n_mfcc=12)
w.wav是一个0.5s的录音文件,采样率8000,双声道,16位深。也就是说有4000个采样点。按照默认的帧长2048,帧移512来计算, 这里有int[(4000-2048)/512] + 1帧(4帧)。我以为结果输出的mfcc会是 12x4 的矩阵结果输出了 12x8的。有没有大佬知道列数到底和时间和帧长有什么关系? 是不是录音格式的问题?