librosa重采样时遇到问题

我在将自己录制的音频用Python转换格式并转换为16khz的文件保存时，显示了如下错误ParameterError: Audio data must be of type numpy.ndarray。
我对numpy的了解还不够深入想知道该怎么解决。

import torchaudio
from pydub import AudioSegment
import wave
import librosa
#open the file
filename="./MyVoice.m4a"
my_file="MyVoice.wav"
#with open(my_file,'rb') as M:
    #content=M.read()
    #print(content)
    
#convert .m4a into .wav
sound = AudioSegment.from_file(filename, format="m4a")
sound.export(my_file, format="wav")

#get the initial data
waveform, sampling_rate=torchaudio.load(my_file)
#print the basic size of waveform and sampling rate
print("The size of waveform:{}".format(waveform.size()))
print("The sampling rate :{}".format(sampling_rate))

#get the information of the file
f=wave.open(my_file,'rb')
params = f.getparams()  
print(params)
nchannels, sampwidth, framerate, nframes = params[:4]
print(sampwidth)

#resampe and get new data with 16khz sampling rate and 16-bit depth
new_file="Re_MyVoice.wav"
resampler_16k = librosa.resample(y=waveform,orig_sr=sampling_rate,target_sr=16000)
librosa.output.write_wav(new_file, resampler_16k, 16000)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-sinJack 2024-01-27 21:33
关注
torchaudio.load函数返回类型是torch.Tensor的waveform，而不是一个numpy.ndarray类型。
librosa.resample函数需要传一个numpy数组。

resampler_16k = librosa.resample(y=waveform,orig_sr=sampling_rate,target_sr=16000) 改为： resampler_16k = librosa.resample(y=waveform.numpy(), orig_sr=sampling_rate, target_sr=16000)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python音频读取对比[源码]
2025-11-14 10:20

在音频处理领域，Python作为一种广泛使用的编程语言，提供了多种方式来读取和处理音频文件。本文详细探讨了三种流行的Python库来读取音频文件：soundfile、librosa和pydub。其中，soundfile的read函数是专门用于读取...
AI Agent的多模态情感分析系统
2025-03-14 23:00

光子AI的博客附录：常见问题与解答：解答读者在学习和实践过程中可能遇到的常见问题。扩展阅读 & 参考资料：提供相关的扩展阅读材料和参考资料。 1.4 术语表 1.4.1 核心术语定义 AI Agent：人工智能代理，是一种能够感知环境、...
电话号码识别系统：源码与音频处理详解
2025-07-25 22:27

魔王不造反的博客常见的音频编码格式包括但不限于：：脉冲编码调制是未经压缩的原始数字音频格式，它直接对模拟信号进行采样和量化。尽管PCM具有很高的音频质量，但其文件体积较大。：MP3是目前最流行的音频压缩格式之一，它通过去除...
Vosk-api情感分析：语音情感识别技术实现
2025-09-06 03:02

蔡丛锟的博客你是否遇到过以下场景：客服通话中无法实时判断用户情绪导致投诉升级？智能硬件语音交互时无法识别用户喜怒哀乐？语音助手对用户指令的情感倾向理解偏差？传统语音识别仅能将语音转为文本，而**语音情感识别（Speech...
选择instruct文本控制风格：让语音更具表现力
2026-01-02 03:22

夏曦安的博客阿里开源的CosyVoice3实现仅需3秒音频克隆音色，并通过自然语言指令实时控制语音的情感、语调和方言。无需专业技能，普通人也能用“兴奋地说”或“用四川话说”这类提示词生成富有表现力的语音，推动语音合成进入...
学习并研究语音识别路线
2025-09-09 16:28

智驱千行的博客核心编程语言：Python（ASR 领域主流，生态丰富）、C++（用于底层优化，如 Kaldi 的核心模块）；深度学习框架：PyTorch（动态图，适合科研迭代）、TensorFlow（静态图，适合工程部署），需掌握模型定义（nn.Module...
SoX音频处理工具链整合CosyVoice3实现变速变调增强
2026-01-02 06:38

Vita Libre的博客在这个整合体系中，SoX 承担着至关重要的后处理任务：对 CosyVoice3 输出的 .wav 文件进行非破坏性的变速、变调、重采样等操作。其核心技术原理基于数字信号处理中的短时傅里叶变换（STFT）与相位声码器（Phase...
如何参与Sonic项目的开源贡献？Pull Request流程详解
2026-01-03 00:37

优游的鱼的博客深入解析如何参与Sonic项目的开源贡献，从技术架构到Pull Request实战，涵盖音频特征处理、ComfyUI工作流优化与常见问题修复，帮助开发者提交真正有价值的代码变更。
语音识别前端处理：MFCC特征提取代码由VibeThinker一键生成
2026-01-06 12:53

薛迟的博客通过轻量级AI模型VibeThinker，仅用自然语言指令即可生成高质量的MFCC特征提取代码，全过程基于numpy和scipy，无需依赖Librosa。该方法准确实现预加重、分帧、梅尔滤波器组与DCT变换，输出结果接近工业标准，适用于...
开发者大赛举办设想：激发社区创新应用CosyVoice3的潜力
2026-01-02 04:39

duck_1984的博客阿里开源的CosyVoice3实现3秒声音克隆与自然语言控制，支持方言、情绪表达及精准多音字处理。通过WebUI降低使用门槛，结合开发者大赛激发社区创新，推动个性化语音在教育、无障碍、文化保护等领域的应用落地。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月27日

librosa重采样时遇到问题

3条回答 默认 最新

问题事件

3条回答默认最新