python 如何提取视频中的音频再保存到内存

我想提取视频中的音频再保存到内存[python]

目前最相似的方案是moviepy 库但是这只能提取音频并保存到本地
我确实能够先保存再用其他的音频库读取，但由于这会让运行效率低下python雪上加霜，再加上本人精神洁癖的缘故坚决不使用这种方法

所以，有没有什么方法能解决我的问题呢

这里是我期望的输入和输出

input = videopath.mp4
# 然后output记录音频的波形数据。。。。
output = nparray #最好是这个
output = list # 这个也行
output = tensor # 这个也行

是保存到内存，而非本地。也不是保存，然后加载

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

-乾杯- 2022-03-19 00:48

关注

https://github.com/JyzjYzjyZ/Format-conversion-of-in-memory-audio

如何使用和具体说明去看链接，有用的话给原作者star

import soundfile,librosa,torch, copy
import numpy as np
import scipy.interpolate as interpolate
import torchaudio,wave,torchvision #build时祈福求平安

'''
author:goodjin5
date:2022.3.16 --> 2022.3.19
-v 1.0.2 --> 1.0.3
=====================================

'''

def resample(sound,orig_sr,target_sr=16000,resample_type:str=None):
    '''
    :param sound: numpy-float64 maybe can run in float 32
    :param orig_sr: 原始的采样率
    :param target_sr: 目标采样率，与原相同或为0时直接返回
    :param resample_type: 采用类型，默认自动分配fast或者best,可以强制指定 使用 'best',  'kaiser_best','fast','kaiser_fast'
    :return: 采样后的nparray
    '''
    if orig_sr == target_sr or target_sr==0:
        return sound,orig_sr


    if resample_type in ['best',  'kaiser_best','fast','kaiser_fast']:
        restype = ['kaiser_best','kaiser_best','kaiser_fast','kaiser_fast'][['best', 'kaiser_best','fast', 'kaiser_fast'].index(resample_type)]
    else:
        restype = ('kaiser_fast' if target_sr <= orig_sr else 'kaiser_best')
    if __name__=='__main__':
        print(resample_type,restype)

    sound = librosa.resample(y=sound,orig_sr=orig_sr,target_sr=target_sr,res_type=restype)
    return sound,target_sr


def read(path:str,sr:int=16000,mono:bool=True):
    '''
    支持音视频格式，所以ffmpeg支持的格式都可以
    :param path: 音频路径
    :param sr: 采样率 为0时采用原始的采样率
    :param mono: 启用单声道
    :return: numpy-float64
    '''
    try:
        sound,orig_sr = soundfile.read(path,dtype='float64')
        sound=sound.T
    except:
        sound, orig_sr = librosa.load(path=path,dtype=np.float64,res_type='kaiser_fast')
    # to mono,and resample sr
    if mono:
        sound = librosa.to_mono(sound)
    # if sr == 0 or target_sr == orig_sr:
    #     # 无需采样
    #     return sound,orig_sr
    # sound = librosa.resample(y=sound,orig_sr=orig_sr,target_sr=target_sr,
    #                          res_type=('kaiser_fast' if target_sr <= orig_sr else 'kaiser_best'))
    sound,s = resample(sound,orig_sr,sr)
    return sound,s




def toWave(sound):
    '''
    :param sound: numpy-float64
    :return: waveFile -bytes
    '''
    # 32767
    return (sound * 32767).astype('int16').tobytes()


def toTorch(sound):
    '''
    :param sound: numpy-float64
    :return: tensor-float32
    '''
    sound = sound.astype('float32')
    t = torch.from_numpy(copy.deepcopy(sound))
    # 扩展维度，维度转换
    return t.unsqueeze(1).permute(1, 0)


def toNumpy_int16(sound):
    return (sound * 32767).astype('int16')


def torchToNumpy_float(sound):
    '''
    :param sound: tensor
    :return: numpy_float float是16还是32由输入的tensor决定
    '''
    # 将所有shape为1的维度降维
    return sound.squeeze().numpy()


def resamplrBylen(orig_list:list,target_len:int):
    '''
    同于标准重采样，此函数将len(list1)=x 从采样为len(list2)=y；y为指定的值，list2为输出
    :param orig_list: 是list,重采样的源列表：list1
    :param target_len: 重采样的帧数：y
    :return: 重采样后的数组:list2
    '''
    orig_list_len =len(orig_list)
    k = target_len/orig_list_len
    x = [x*k for x in range(orig_list_len)]
    x[-1] = 3572740
    if x[-1]!=target_len:
        # 线性更改越界结尾
        x1=x[-2];y1=orig_list[-2];x2=x[-1];y2=orig_list[-1]
        y_resa = (y2 - y1) * (target_len - x1) / (x2 - x1) + y1
        x[-1] = target_len;orig_list[-1]=y_resa
    # 使用了线性的插值方法，也可以根据需要改成其他的。推荐是线性
    f = interpolate.interp1d(x,orig_list,'linear')
    del x
    resample_list = f([x for x in range(target_len)])
    return resample_list


if __name__=='__main__':
    # exaxmple
    # You can test performance and usability here
    # change 'AUDIO_PATH.wav' or 'Video_path.*' all format[ffmpeg]
    path = 'AUDIO_PATH.wav'
    path = r'D:\setup\wav\130.wav'
    import matplotlib.pyplot as plt
    numpy_float64,sr = read(path,0,True)
    # 把target设置的过低会出现不能除以0的错误
    res_low,sr = resample(numpy_float64,sr,target_sr=100,resample_type='kaiser_best')
    # resample(numpy_float64,sr,50000,'kaiser_best')
    wave = toWave(numpy_float64)
    tensor = toTorch(numpy_float64)
    numpy_int16 = toNumpy_int16(numpy_float64)
    resamplr_bylen = resamplrBylen(numpy_float64.tolist(),5000)
    plt.figure(figsize=(1000, 50), dpi=80)
    plt.subplot(111)
    plt.plot(resamplr_bylen, color='red',linestyle="-",alpha=1)
    # plt.plot(numpy_float64.tolist(), color='green',linestyle="-",alpha=1)
    plt.plot(res_low.tolist(), color='blue',linestyle="-",alpha=1)
    plt.text(5, 0.4, 'InAudio,max{0},min{1}\nred:By len\nblue:By sr'
             .format(max(numpy_float64.tolist()),min(numpy_float64.tolist())))
    plt.show()
    print('Passing the test')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

Python实现的知识图谱推荐算法MKR源码（附项目说明与数据集）
2025-05-07 17:44

推荐系统是解决“信息过载”问题的有效手段，广泛应用于电商、社交媒体、音乐和视频流媒体等领域。而知识图谱可以为推荐系统提供丰富、多维、层次化的知识背景，极大地增强推荐系统的理解能力和解释能力。 MKR...
基于Python的非结构化数据检索系统的设计与实现.docx
2023-11-01 11:31

在当今大数据时代，非结构化数据占据了数据总量的大部分，如文本、图像、音频和视频等。这些非结构化数据蕴含着丰富的信息，对其进行有效的检索和分析是提升业务决策效率的关键。本论文主要探讨如何利用Python语言...
Python源码-非结构化补充服务数据.zip
2025-05-25 20:09

非结构化数据的处理和分析对于现代信息技术和人工智能领域来说，是一个具有挑战性的任务，因为它们通常需要复杂的算法和强大的计算能力来提取有用的信息。补充服务数据可能指的是为某种主要服务提供额外信息支持的...
基于python的语音和背景音乐分离算法及系统源码数据库.zip
2023-09-01 11:34

在给定的“基于python的语音和背景音乐分离算法及系统源码数据库.zip”压缩包中，包含了关于Python编程、音频处理算法以及软件开发实践的相关知识点。以下将详细阐述这些内容： 1. Python编程：Python是一种高级...
滑动窗口：数据结构与算法在信号处理算法中的融合
2025-05-23 15:54

程序员光剑的博客信号处理的核心挑战之一是对连续数据流的实时分析，而滑动窗口作为一种高效的数据结构，能够在不存储全量数据的前提下，动态聚焦数据局部区域，实现高效的特征提取与变换。本文将系统解析滑动窗口的基础原理，及其与...
基于python使用Speech Denoising with Deep Feature Losses网络对中文音频去噪设计与实
2022-05-04 12:54

在现代的语音处理技术中，音频去噪是一个关键步骤，特别是在智能语音助手、语音识别系统以及电话通信等领域。本文将深入探讨如何利用Python编程语言，结合Speech Denoising with Deep Feature Losses（DFL）网络来...
【coze工作流】提取视频中的音频.zip
2025-10-28 13:28

此外，工作流设计者可能还会考虑到批量处理的需求，允许用户一次性将多个视频文件中的音频提取出来，大大提高了工作效率。在某些特定的应用场景中，还可能涉及到对提取出的音频文件进行进一步的分段、合并或格式转换...
基于Python编程语言构建的综合性数据挖掘与分析平台集成了多种机器学习算法与统计模型旨在从海量结构化与非结构化数据中提取有价值的信息与模式支持数据预处理特征工程模型训练.zip
2025-12-20 13:24

通过对非结构化数据的分析，可以从中提取文本关键词、情感倾向，以及图像和视频中的关键特征等。基于Python构建的数据挖掘与分析平台，通过集成多元化的机器学习算法和统计模型，为用户提供了全方位的数据处理和...
Python爬虫实战：爬取视频到本地，超详细实战教程
2025-09-17 11:09

xcLeigh的博客该教程针对批量保存网站视频的需求，详解用 Python 实现爬取的方法。先介绍所需的 requests、BeautifulSoup4、you-get 等工具库及安装步骤，说明网站单视频与合集视频的 URL 特点。接着分阶段讲解核心功能，从单...
基于python对抖音热门视频的数据分析与实现
2025-01-18 22:42

python编程狮的博客基于Python对抖音热门视频的数据分析表明，当前短视频平台的内容多样化和娱乐化趋势显著，涵盖了短剧、音乐、社交互动等多个领域。从视频标题的词频分析来看，词汇如“热门”、“短剧”、“抖音”等频繁出现，表明...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月17日

python 如何提取视频中的音频再保存到 内存

我想提取视频中的音频再保存到内存[python]

这里是我期望的输入和输出

是保存到内存，而非本地。也不是保存，然后加载

2条回答 默认 最新

如何使用和具体说明去看链接，有用的话给原作者star

问题事件

python 如何提取视频中的音频再保存到内存

2条回答默认最新