icefall在librispeech基础上加入个人数据集

个人需求

首先描述一下我的业务场景：
我之前一直使用的是sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20-bilingual-chinese-english这个数据集，目前我们想在这个数据集的基础上，添加一些我们个人的数据集

问题遇到的现象和发生背景

我参考了https://icefall.readthedocs.io/en/latest/for-dummies/index.html上的流程，根据yesno来生成了我个人的数据集，并且编写了train.py达到了生成训练日志epoch.pt的效果
但接下来我该怎么做呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师新星创作者: Java技术领域 2024-05-24 13:58
关注
获得0.60元问题酬金
🕒下午好，题主！目前：🟢[在线]
📢参考通义千问、由郭老师整理提供！
📣今日诗号：浮生寄墟丘，不与红尘谋，身披烟波立云舟。一扇擎青穹，飘洒翳孤踪，梦变鲲鹏振长空。
步骤 1：创建新数据集

按照 Icefall 文档中的步骤，使用 YesNo 工具创建您的个人数据集。

步骤 2：合并数据集

将您的个人数据集与 LibriSpeech 数据集合并。您可以使用 flite 工具来完成此操作：

flite_concat -o merged.wav libri.wav personal.wav

其中：

libri.wav：LibriSpeech 数据集
personal.wav：您的个人数据集
merged.wav：合并后的数据集

步骤 3：转换合并后的数据集

将合并后的数据集转换为 Icefall 所需的格式：

icefall-wav2vec data/merged.wav data/merged.json

其中：

data/merged.wav：合并后的数据集
data/merged.json：与数据集对应的 JSON 清单文件

步骤 4：创建训练配置文件

创建训练配置文件，指定要训练的模型参数和数据路径：

# train.yaml wandb_project: icefall train_samples: 1000000 epochs: 100 step_size: 10000 lr: 0.001 weight_decay: 0.0 data: train: data/merged.json

步骤 5：训练模型

使用 Icefall 训练您的模型：

icefall-train data/train.yaml

步骤 6：评估模型

训练完成后，评估模型的性能：

icefall-eval data/train.yaml data/test.json

注意：

步骤 4 中的 train_samples 和 epochs 值可以根据您的数据集大小和可用训练时间进行调整。
使用 --early_stop_tolerance 标志启用早期停止以防止过度拟合。
请务必仔细检查您的合并步骤和生成的清单文件，以确保没有错误。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【亲测免费】探索AI语音新纪元：Icefall - 一个全面的Transformer-based ASR工具包
2024-04-25 10:07

农爱宜的博客是一个基于Transformer架构的开源自动语音识别（ASR）工具包。由K2-FSA团队开发，该项目旨在为研究人员和开发者提供一个强大的...Icefall采用Transformer模型作为其基础，这是一类在自然语言处理领域广泛成功的序列到序
icefall新手入门：30秒训练yesno数据集，轻松掌握语音识别基础
2025-11-04 07:04

卓艾滢Kingsley的博客本文将带你快速上手icefall，通过训练yesno数据集，在短短30秒内体验语音识别的基础流程，让你轻松迈入语音识别的世界。 ## 准备工作：获取icefall项目首先，你需要获取icefall项目的代码。打开终端，执行以下...
sherpa-onnx文字转语音TTS >vits-icefall-zh-aishell3模型
2024-11-26 18:59

icefall技术是在预训练好的模型基础上，通过特定的算法降低模型复杂度，同时尽可能保持合成语音的质量，这使得模型在有限的计算资源下依然能够高速运行。此外，sherpa-onnx还支持其他多种模型，这些模型各有特点，...
从零开始：使用k2-icefall训练中文语音识别模型（Aishell数据集实战）
2018-01-10 15:08

weixin_30275415的博客本文详细介绍了如何使用k2-icefall框架从零开始训练中文语音识别模型，基于Aishell数据集进行实战演练。内容涵盖环境配置、数据处理、模型训练及调优等关键步骤，帮助开发者快速掌握k2-icefall的配置实践，提升中文...
基于k2-icefall实践Matcha-TTS中文模型训练
2025-06-19 16:40

IT老兵2025的博客摘要：本文介绍了基于k2-icefall和Matcha-TTS的中文语音合成实践。详细说明了硬件环境（i7-7700+RTX3070Ti）...最后比较了不同迭代步数的onnx模型在RK3588板上的性能表现，并通过损失曲线验证了最佳训练周期约1600轮。
如何在双RTX 4090D上2小时完成k2-icefall Zipformer全参微调？保姆级配置指南
2025-09-03 09:04

tree的博客本文提供了一份在双RTX 4090D GPU上高效完成k2-icefall Zipformer模型全参微调的实战指南。通过详尽的系统环境配置、数据管道优化、分布式训练参数调优及性能瓶颈排查，旨在帮助用户充分利用硬件性能，在约2小时内...
AISHELL-1数据集下载与使用全攻略：从零开始搭建中文语音识别实验环境
2025-10-31 08:53

嗑着瓜子听你唠嗑的博客本文详细介绍了AISHELL-1中文语音数据集的下载、预处理、特征提取及模型训练全流程，帮助开发者快速搭建中文语音识别实验环境。AISHELL-1作为高质量普通话语音数据库，包含178小时录音，适用于语音识别系统的研究与...
基于k2-icefall的Matcha-TTS中文模型训练实践[可运行源码]
2025-11-24 15:32

训练完成后，文章对模型的输出进行了深入分析，包括模型的转换成ONNX格式的步骤和在RK3588硬件板上的验证测试。此外，作者还对可能出现的过拟合现象进行了细致的分析，并给出了合理的训练周期建议，以帮助优化模型的...
icefall核心功能揭秘：支持30+数据集与10+模型架构的语音AI工具
2025-11-04 05:06

葛梓熙的博客 icefall是一款功能强大的语音AI工具，它支持30多种数据集和10多种模型架构，为语音识别领域的研究和应用提供了全面且高效的解决方案。无论是新手还是专业开发者，都能借助icefall快速构建和部署语音识别系统。 ## ...
基于k2-icefall Zipformer模型的adapter微调实践
2025-08-16 17:31

IT老兵2025的博客实验在GigaSpeech数据集上进行，微调后模型参数量增加0.6%，在GigaSpeech测试集上的词错误率（WER）从19.16降至16.23。文章介绍了从模型下载、数据准备到训练测试的全过程，并针对PyTorch权重加载失败和参数解析错误...
基于k2-icefall实践Matcha-TTS中文模型训练2
2025-07-23 16:58

IT老兵2025的博客在k2-icefall框架下，基于BZNSYP语料库（12小时语音），通过修改lhotse工具实现了训练数据量的控制。实验对比了100%（10000条）、50%和10%数据量的训练效果。结果显示：完整数据训练耗时19小时，50%数据耗时6.5小时...
如何0基础配置新一代Kaldi（k2内核+icefall框架）？
2025-12-17 01:06

bylsxy的博客实验选用yesno数据集验证了Transducer模型的训练流程，最终在无GPU条件下成功完成模型训练和验证集评估。论文提供了可复现的部署方案，并针对WSL环境下的常见问题给出了具体解决方案，为类似环境下的语音识别系统...
k2——icefall配置实践
2025-02-12 15:40

ccdous的博客 4、在 Windows 上启动 TensorBoard，我的文件在D:\Temp\Download里。2、训练,像上面七、一样写一个run.sh，执行run.sh。一、k2代码安装步骤，详细步骤看这个链接的示例更好。三、安装torch和torchaudio。二、安装...
AISHELL-1数据集全解析：从下载到实战应用指南
2025-11-01 02:26

EGG99的博客本文详细解析了AISHELL-1中文语音识别数据集，提供了从数据下载、目录结构解析到基于Icefall框架实战训练的完整指南。文章重点介绍了如何使用该数据集构建ASR系统，包括数据预处理、Conformer模型训练、解码评估及...
语音之家SOTA｜Leaderboard 新增 WenetSpeech 数据集预训练 WeNet 模型
2022-11-04 15:52

语音之家的博客从数字可以看出，基于 WenetSpeech 数据集的 WeNet 模型在性能上已经超过了百度的付费商业引擎，逼近行业头部商业引擎的 [从数据到框架的全栈开源系统，在性能上开始超越商业付费系统的案例，在很多技术领域的发展...
数据开源｜GigaSpeech 2：三万小时东南亚多语种语音识别开源数据集发布
2024-07-02 12:21

海天瑞声AI的博客针对多语言领域仍存在的语音识别性能较差、可用高质量标注数据缺乏等问题，我们提出了利用 in-the-wild 无标注音频，构建高质量大规模语音识别数据集的新范式，制作出面向真实场景的大规模、多领域、多语言的语音...
新一代kaldi-icefall环境配置与aishell实践
2024-08-18 12:50

@李思成的博客代码来源：[[k2-fsa/icefall (github.com)](https://github.com/k2-fsa/icefall)](https://github.com/kaldi-asr/kaldi) 官网文档：https://k2-fsa.github.io/icefall/
kaldi中LSTM和tdnn怎么结合到一块？【icefall/egs/librispeech/ASR/tdnn_lstm_ctc】
2024-06-20 23:43

u013250861的博客首先kaldi中实现lstm的第一层是W_all，在t时刻，它的输入包括上一层（tdnn）的输出x、lstm自身在(t-3)时刻的输出m_trunc，该层的输出是经过四个门（，在t时刻拼接三帧特征后送进tdnn，之后再把tdnn的输出送进lstm，...
基于k2-icefall Zipformer模型的全参微调实践
2025-09-02 14:33

IT老兵2025的博客实验结果显示，微调后模型在gigaspeech测试集上的WER从19.84/19.16降低到13.51/13.55，性能显著提升，但针对librispeech测试集的WER略有上升。相比此前使用RTX3080进行的adapter微调，全参数微调虽然占用更多显存...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月24日

icefall在librispeech基础上加入个人数据集

个人需求

问题遇到的现象和发生背景

21条回答 默认 最新

问题事件

21条回答默认最新