h0103661 2022-08-10 15:27

已结题

使用VITS训练时torch回报AssertionError

问题遇到的现象和发生背景

我在使用VITS训练时，torch pad回报了以下错误

AssertionError: 4D tensors expect 4 values for padding

https://github.com/jaywalnut310/vits

我使用的VITS-japanese
(训练部份基本没修改)

torch版本为1.6.0，是从requirements.txt下的

问题相关代码，请勿粘贴截图

执行代码:

test.json是修改了listfile路径的VITS-japanese/config/nan.json

python train.py -c config/test.json -m test

运行结果及报错内容

Process SpawnProcess-1:
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/torch/multiprocessing/spawn.py", line 20, in _wrap
    fn(i, *args)
  File "/content/vits-japanese/train.py", line 117, in run
    train_and_evaluate(rank, epoch, hps, [net_g, net_d], [optim_g, optim_d], [scheduler_g, scheduler_d], scaler, [train_loader, eval_loader], logger, [writer, writer_eval])
  File "/content/vits-japanese/train.py", line 137, in train_and_evaluate
    for batch_idx, (x, x_lengths, spec, spec_lengths, y, y_lengths) in enumerate(train_loader):
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 363, in __next__
    data = self._next_data()
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 989, in _next_data
    return self._process_data(data)
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/dataloader.py", line 1014, in _process_data
    data.reraise()
  File "/usr/local/lib/python3.7/dist-packages/torch/_utils.py", line 395, in reraise
    raise self.exc_type(msg)
AssertionError: Caught AssertionError in DataLoader worker process 0.
Original Traceback (most recent call last):
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/worker.py", line 185, in _worker_loop
    data = fetcher.fetch(index)
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/fetch.py", line 44, in fetch
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/usr/local/lib/python3.7/dist-packages/torch/utils/data/_utils/fetch.py", line 44, in <listcomp>
    data = [self.dataset[idx] for idx in possibly_batched_index]
  File "/content/vits-japanese/data_utils.py", line 97, in __getitem__
    return self.get_audio_text_pair(self.audiopaths_and_text[index])
  File "/content/vits-japanese/data_utils.py", line 62, in get_audio_text_pair
    spec, wav = self.get_audio(audiopath)
  File "/content/vits-japanese/data_utils.py", line 81, in get_audio
    center=False)
  File "/content/vits-japanese/mel_processing.py", line 71, in spectrogram_torch
    y = torch.nn.functional.pad(y.unsqueeze(1), (int((n_fft-hop_size)/2), int((n_fft-hop_size)/2)), mode='reflect')
  File "/usr/local/lib/python3.7/dist-packages/torch/nn/functional.py", line 3567, in _pad
    assert len(pad) == 4, '4D tensors expect 4 values for padding'
AssertionError: 4D tensors expect 4 values for padding

我的解答思路和尝试过的方法

我追踪了tensor大小
data_utils.py.get_audio()中的原始audio:

torch.Size([69506, 2])

data_utils.py.get_audio()中经过unsqueeze(0)修改的audio_norm:

torch.Size([1, 69506, 2])

mel_processing.py.spectrogram_torch()中放入pad()前的y.unsqueeze(1):

torch.Size([1, 1, 69506, 2])

padding大小和预设config相同((1024-256)/2):

(384,384)

我想要达到的结果

原始代码我没修改过应该都没问题

是我输入的wav音频有问题?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
h0103661 2022-08-10 18:43
关注
我尝试用 (0,0,384,384) 填充padding size，但在下一个 stft() 中出现“expected a 1D or 2D tensor of floating types”错误，似乎是输入问题而不是VITS code有错误。

问题出在音频档，我将所有wav重新取样之后就正常了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

使用VITS训练时torch回报AssertionError python pytorch
2022-08-10 15:27

回答 1 已采纳我尝试用 (0,0,384,384) 填充padding size，但在下一个 stft() 中出现“expected a 1D or 2D tensor of floating types”错误，似
请问在vits4.0里面跑聚类模型出这个是显存的问题吗 python
2023-03-31 21:20

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你可以参考下这个问题的回答, 看看是否对你有帮助, 链接: https://ask.csdn.net/questions/715572我还给你找了
编码cython中出现找不到文件的问题 c语言 python 自然语言处理
2022-10-11 15:29

回答 3 已采纳先cd ..返回上一层在执行在执行 python setup.py build_ext --inplace
成功解决raise AssertionError(“Torch not compiled with CUDA enabled“)AssertionError: Torch not compiled
2021-12-11 22:41

一个处女座的程序猿的博客成功解决raise AssertionError("Torch not compiled with CUDA enabled") AssertionError: Torch not compiled with CUDA enabled 目录解决问题解决思路解决方法解决问题 File "F:\File_...
BERT微调报错KeyError: tensorflow 机器学习深度学习神经网络自然语言处理
2020-05-24 22:52

回答 2 已采纳 https://github.com/terrifyzhao/bert-utils/issues/10
raise AssertionError(“Torch not compiled with CUDA enabled“)
2022-11-15 19:34

DeepGoAI的博客遇到的问题，就是 GPU driver 以及cuda都装完了，pytorch装完之后想试试代码。结果报错，raise AssertionError(“Torch not compiled with CUDA enabled”)。
So-vits-svc鼓捣问题备份1
2023-10-16 09:53

草丈五的博客本来是用pip install requirements_win.txt，自动装的torch，似乎是2.1.0，理论上是换成GPU版本的pytorch。PS 显卡是影驰3060塑料大师MAxoc 12g,目前用了50条，大约一条5S的数据，大概是11秒左右一条。怎么不动啊，...
基于MockingBird声音克隆
2023-02-08 11:29

Mr数据杨的博客目前网络上的版本有很多，教程也是各种五花八门，我尝试看了几个代码都跑不通，自己折腾了一天终于完成了数据集预处理、模型训练应用的过程，效果还算可以，想要真的完美的克隆声音还需要技术的进步才可以。
TTS | 轻量级语音合成论文详解及项目实现
2023-09-18 15:06

夏天｜여름이다的博客因为VITS是高质量端到端的模型，所以论文提出的模型是基于VITS轻量级的端到端模型，论文主要几种在模型的解码部分，也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效...
【CVPR2022 | TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation介绍及复现】
2023-11-18 21:26

HuangZouZou的博客 AssertionError: MMCV==1.7.1 is used but incompatible. Please install mmcv＞=1.3.13, 下面是README.md中的代码 sh tools/dist_train.sh local_configs/topformer/<config-file> <num-of-gpus-to-use> --work-...
So-vits-svc本地部署中可能遇见的问题
2023-06-11 10:12

Segninne的博客 faiss版本和python版本对应出现问题，可重新下载。//可以通过以下命令查看torch版本。以下解决方案仅供参考。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月10日

悬赏问题

¥15 远程桌面文档内容复制粘贴，格式会变化
¥15 关于#java#的问题：找一份能快速看完mooc视频的代码
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
¥15 网络设备配置与管理这个该怎么弄
¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题