Python之Gradio库如何很好的实现剪切音频

情景

我在处理AI训练模型时,需要把一大段对话中不同人的声音剪切出来,并且分类
但是如果使用Au等软件有点小题大做,并且保存文件有点麻烦,所以想直接写一个WebUI来切分并分类
希望有如下功能

1.切割音频,可以在UI中方便调整切割位置,听取每段的声音
2.可以在UI中进行分类,确认切割后保存到不同的文件夹下

困难

看多数AI使用的都是Gradio这个库,所以我也打算这个库,但对这个库对音频处理的方法不是很熟悉
所以思路卡在了第一步上,希望被点拨一下
或者有什么优秀的项目可以使用及更好的处理方案
感谢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

知识就是冻梨 2024-02-05 12:57

关注

还差几中午好🌞🌞🌞
本答案参考通义千问

要使用 Gradio 库实现在 Web UI 中剪切和分类音频的功能，首先需要结合其他 Python 音频处理库，如 pydub 和 gradio 自身提供的功能。以下是一个简化的步骤和示例代码，实现了你所描述的需求：

安装所需的库

pip install gradio pydub

准备音频数据 假设你已经有一段包含多个人语音的wav或mp3文件，并将其存储在一个名为 audio_file.mp3 的文件中。

定义音频处理函数（包括切割和分类）

import os
from pydub import AudioSegment
from pydub.playback import play

def cut_audio_and_classify(file_path, start_time, end_time, speaker_label):
    # 加载原始音频
    audio = AudioSegment.from_mp3(file_path)

    # 切割音频片段
    clip = audio[start_time*1000:end_time*1000]  # 注意：时间单位为毫秒

    # 保存切割后的音频片段（这里假设有一个 speakers 文件夹用于分类）
    output_folder = "speakers/" + speaker_label
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    output_file_path = f"{output_folder}/{os.path.basename(file_path).split('.')[0]}_{speaker_label}_{int(start_time)}_{int(end_time)}.mp3"
    clip.export(output_file_path, format="mp3")

    # 播放音频片段以确认
    play(clip)

    return {"status": "success", "output_file": output_file_path}

# 示例切割时间范围和分类
start_time_1 = 5  # 秒
end_time_1 = 10  # 秒
speaker_label_1 = "PersonA"

start_time_2 = 15  # 秒
end_time_2 = 20  # 秒
speaker_label_2 = "PersonB"

# 调整切割时间和分类后调用函数
cut_audio_and_classify("audio_file.mp3", start_time_1, end_time_1, speaker_label_1)
cut_audio_and_classify("audio_file.mp3", start_time_2, end_time_2, speaker_label_2)

创建 Gradio UI 实例

import gradio as gr

# 创建一个 Gradio 函数输入参数，包括音频文件、切割起始时间、结束时间和分类标签
def process_audio(file):
    # 使用上述的 cut_audio_and_classify 函数处理音频
    output = cut_audio_and_classify(file.file.name, file["start"], file["end"], file["speaker"])
    return output

# 创建一个包含三个输入字段的 Gradio UI，分别对应音频文件、切割开始时间和结束时间，以及分类标签
inputs = [
    gr.inputs.File(type="audio", label="选择音频文件"),
    gr.inputs.Slider(min=0, max=len(audio), value=start_time_1, step=1, label="切割开始时间 (秒)"),
    gr.inputs.Slider(min=0, max=len(audio), value=end_time_1, step=1, label="切割结束时间 (秒)"),
    gr.inputs.Radio(["PersonA", "PersonB"], default=speaker_label_1, label="分类")
]

outputs = [gr.outputs.Text(label="输出文件路径")]

# 创建 Gradio 定义
title = "音频剪切与分类 Web UI"
description = "通过 UI 输入音频文件、切割时间和分类，对音频进行分割并保存到对应的文件夹中。"
article = "<p style='color:grey;'>提示：按回车键预览切割后的音频。</p>"

gr.Interface(process_audio, inputs, outputs, title=title, description=description, article=article,
             examples=[{"input": {"file": open("audio_file.mp3", "rb"), "start": start_time_1, "end": end_time_1, "speaker": speaker_label_1},
                        "output": {"status": "success", "output_file": "path_to_output_file.mp3"}}]).launch()

最后，运行上面的代码会启动一个基于 Gradio 的 Web UI，用户可以通过上传音频文件、设置切割时间和分类，从而实现音频的自动切割并保存至指定分类文件夹中。注意，这里的 examples 参数用于向 Gradio 展示初始使用案例，可以根据实际音频文件和切割时间配置这些例子。

报告相同问题？

关注问题

语音合成预处理应用：FSMN-VAD静音剔除部署技巧
2026-01-17 07:45

国营窝窝乡蛮大人的博客本文介绍了如何在星图GPU平台上自动化部署FSMN-VAD离线语音端点检测控制台...该工具能精准识别音频中的人声片段并生成时间戳报告，核心应用场景是为语音识别进行预处理，自动剔除静音部分，从而提升识别效率与准确率。
AudioSeal镜像免配置优势：无需torch.compile、无需HuggingFace token
2026-01-20 04:11

陳寶平的博客本文介绍了如何在星图GPU平台上自动化部署AudioSeal音频水印系统镜像，实现开箱即用的音频水印嵌入与检测功能。该方案免除了复杂的PyTorch编译和HuggingFace令牌申请流程，用户可快速将其应用于保护原创音频内容、...
CosyVoice语音克隆实战：5分钟部署教程，小白也能3秒复刻声音
2026-01-16 03:26

NightshadeHawk54的博客本文介绍了基于星图GPU平台自动化部署️ CosyVoice-300M Lite: 轻...通过预置镜像，用户可快速搭建语音克隆服务，仅需3秒音频即可复刻音色，适用于AI主播、多语言播报、情感化TTS等场景，实现高效语音交互开发与应用。
Hunyuan模型支持粤语吗？方言翻译实测部署教程
2026-01-29 01:43

邹子乔的博客可以集成到现有系统中能够调整各种生成参数缺点：需要编程基础需要处理错误和异常内存管理需要自己控制 3.4 方式三：Docker部署（最稳定）如果你想要一个稳定、可移植的部署方案，Docker是最佳选择。...
Qwen3-ForcedAligner-0.6B开源大模型：Apache 2.0协议，商用免费可二次开发
2025-12-24 02:22

牛新哲的博客本文介绍了如何在星图GPU平台上自动化部署Qwen3-ForcedAligner-0.6B（内置模型版）v1.0镜像，实现高效的音文强制对齐功能。该工具能自动为音频和文本生成精确到词级的时间戳，典型应用场景是快速制作视频字幕，将...
Linux 优秀软件资源大全中文版
2016-08-21 10:38

0xE8551CCB的博客 - Nemiver 是一个用于编写独立的图形界面调试器项目，它与 GNOME 桌面环境很好地集成在一起。 Netbeans - NetBeans IDE 能够让你快速轻松地开发 Java 桌面应用、移动应用以及 Web 应用，当然也支持使用 HTML, ...
从文化符号到代码：用Python实现Max Headroom数字艺术风格
2026-04-26 01:27

LearningandStudy的博客通过Python生态中的OpenCV、PIL、NumPy等库，结合FFmpeg等工具，开发者可以构建自动化处理流水线，实现风格迁移、特效添加等复杂操作。在实际应用场景中，从老式CRT显示的故障艺术效果模拟，到数字音频的结巴处理，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月5日

Python之Gradio库如何很好的实现剪切音频

情景

困难

1条回答 默认 最新

问题事件

1条回答默认最新