使用VITS训练时torch回报AssertionError

问题遇到的现象和发生背景

我在使用VITS训练时，torch pad回报了以下错误

AssertionError: 4D tensors expect 4 values for padding

https://github.com/jaywalnut310/vits

我使用的VITS-japanese
(训练部份基本没修改)

torch版本为1.6.0，是从requirements.txt下的

问题相关代码，请勿粘贴截图

执行代码:

test.json是修改了listfile路径的VITS-japanese/config/nan.json

python train.py -c config/test.json -m test

运行结果及报错内容

Process SpawnProcess-1:
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/torch/multiprocessing/spawn.py", line 20, in _wrap
    fn(i, *args)
  File "/content/vits-japanese/train.py", line 117, in run
    train_and_evaluate(rank, epoch, hps, [net_g, net_d], [optim_g, optim_d], [scheduler_g, scheduler_d], scaler, [train_loader, eval_loader], logger, [writer, writer_eval])
  File "/content/vits-japanese/train.py", line 137, in train_and_evaluate
    for batch_idx, (x, x_lengths, spec, spec_lengths, y, y_lengths) in enumerate(train_loader):
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 363, in __next__
    data = self._next_data()
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 989, in _next_data
    return self._process_data(data)
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 1014, in _process_data
    data.reraise()
  File "/usr/local/lib/python3.7/dist-packages/torch/_utils.py", line 395, in reraise
    raise self.exc_type(msg)
AssertionError: Caught AssertionError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/worker.py", line 185, in _worker_loop
    data = fetcher.fetch(index)
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/fetch.py", line 44, in fetch
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/fetch.py", line 44, in <listcomp>
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/content/vits-japanese/data_utils.py", line 97, in __getitem__
    return self.get_audio_text_pair(self.audiopaths_and_text[index])
  File "/content/vits-japanese/data_utils.py", line 62, in get_audio_text_pair
    spec, wav = self.get_audio(audiopath)
  File "/content/vits-japanese/data_utils.py", line 81, in get_audio
    center=False)
  File "/content/vits-japanese/mel_processing.py", line 71, in spectrogram_torch
    y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
  File "/usr/local/lib/python3.7/dist-packages/torch/nn/functional.py", line 3567, in _pad
    assert len(pad) == 4, '4D tensors expect 4 values for padding'
AssertionError: 4D tensors expect 4 values for padding

我的解答思路和尝试过的方法

我追踪了tensor大小
data_utils.py.get_audio()中的原始audio:

torch.Size([69506, 2])

data_utils.py.get_audio()中经过unsqueeze(0)修改的audio_norm:

torch.Size([1, 69506, 2])

mel_processing.py.spectrogram_torch()中放入pad()前的y.unsqueeze(1):

torch.Size([1, 1, 69506, 2])

padding大小和预设config相同((1024-256)/2):

(384,384)

我想要达到的结果

原始代码我没修改过应该都没问题

是我输入的wav音频有问题?

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
h0103661 2022-08-10 18:43
关注
我尝试用 (0,0,384,384) 填充padding size，但在下一个 stft() 中出现“expected a 1D or 2D tensor of floating types”错误，似乎是输入问题而不是VITS code有错误。

问题出在音频档，我将所有wav重新取样之后就正常了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

成功解决raise AssertionError(“Torch not compiled with CUDA enabled“)AssertionError: Torch not compiled
2021-12-11 22:41

一个处女座的程序猿的博客成功解决raise AssertionError("Torch not compiled with CUDA enabled") AssertionError: Torch not compiled with CUDA enabled 目录解决问题解决思路解决方法解决问题 File "F:\File_...
raise AssertionError(“Torch not compiled with CUDA enabled“)
2022-11-15 19:34

DeepGoAI的博客遇到的问题，就是 GPU driver 以及cuda都装完了，pytorch装完之后想试试代码。结果报错，raise AssertionError(“Torch not compiled with CUDA enabled”)。
So-vits-svc鼓捣问题备份1
2023-10-16 09:53

草丈五的博客本来是用pip install requirements_win.txt，自动装的torch，似乎是2.1.0，理论上是换成GPU版本的pytorch。PS 显卡是影驰3060塑料大师MAxoc 12g,目前用了50条，大约一条5S的数据，大概是11秒左右一条。怎么不动啊，...
基于MockingBird语音合成
2023-02-08 10:24

Mr数据杨的博客数据处理阶段使用moviepy库从视频提取音频，通过autocut工具生成字幕，并对音频文件进行自动切割和无声段去除等预处理。项目包括模型训练(GAN)、音色编码器训练和语音合成三个核心环节，最终提供GUI界面测试模型效果...
问题记录： assert len(padding_value) == patch.shape[-1]AssertionError
2023-04-13 23:29

llhjl的博客 mmrotate中进行图像裁切时：这里padding value是默认值padding_value=[104, 116, 124]，所以显然长度为3；那么就是裁剪得到的图块patch的尺寸出现问题了，打印shape得到： patch. Shape=torch. Size([3, 800, 800]...
TTS | 轻量级语音合成论文详解及项目实现
2023-09-18 15:06

夏天｜여름이다的博客因为VITS是高质量端到端的模型，所以论文提出的模型是基于VITS轻量级的端到端模型，论文主要几种在模型的解码部分，也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效...
【CVPR2022 | TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation介绍及复现】
2023-11-18 21:26

HuangZouZou的博客 AssertionError: MMCV==1.7.1 is used but incompatible. Please install mmcv＞=1.3.13, 下面是README.md中的代码 sh tools/dist_train.sh local_configs/topformer/<config-file> <num-of-gpus-to-use> --work-...
SO-VITS-SVC CPU训练补丁
2025-10-25 14:21

STTF的博客 SO-VITS-SVC原版Github：https://github.com/svc-develop-team/so-vits-svc。
So-vits-svc本地部署中可能遇见的问题
2023-06-11 10:12

Segninne的博客 faiss版本和python版本对应出现问题，可重新下载。//可以通过以下命令查看torch版本。以下解决方案仅供参考。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月10日