tacotron(seq2seq)模型训练80k步后损失函数上升

用10h的中文数据集训练Google tacotron（seq-attention-seq）模型，每次训练到80k步后损失就开始猛涨（梯度爆炸？）而且loss最低值下降到了0.75左右。但是模型的alignment很明显，合成语音只是有杂声。怎么解决？

alignment:

图片说明

学习率/损失/梯度等曲线：

图片说明

模型参数：

# 模型：Tacotron 1
  outputs_per_step=5,
  embed_depth=512,
  prenet_depths=[256, 256],
  encoder_depth=256,
  postnet_depth=512,
  attention_depth=128,
  decoder_depth=1024,

# 优化器：Adam
  batch_size=32,
  adam_beta1=0.9,
  adam_beta2=0.999,
  initial_learning_rate=0.002,
  decay_learning_rate=True,
  use_cmudict=False,

# Initializer:
  truncated_normal_initializer

# 学习率延迟：
  step = init_lr * warmup_steps**0.5 * tf.minimum(step * warmup_steps**-1.5, step**-0.5)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-05-09 12:32
关注
学习率降低一些，用dropout/正则化防止过拟合，还有增加训练数据量或者提前结束训练。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

seq2seq模型预测过程中，如何将上一步的输出导入decoder_input中？ tensorflow
2018-08-01 01:31

回答 1 已采纳你在这个链接里面看一下是否有帮助，https://blog.csdn.net/leadai/article/details/78809788，望采纳，谢谢
seq2seq 文本生成的本质是不是也是找相似，对于输入seq，从训练集里寻找最相似的输入seq？自然语言处理
2021-07-21 09:32

回答 1 已采纳可以这么理解
LSTM里seq_len的具体意义 lstm python pytorch
2023-01-01 10:00

回答 7 已采纳你说的这情况中，可能是希望使用五天的数据来预测第六天的输出。对于输入数据，序列长度（seq_len）通常表示使用多少时间步来进行预测。因此在情况中，seq_len应设为5。输入数据形状应为（batc
seq2seq 论文翻译
2021-06-13 09:04

AiBigData的博客尽管DNNS在大型标记训练集上取得了很好的效果，但是他们不能使用时序到时序的映射。在这篇论文中，我们提出了一个通用的端到端的序列学习方法，该方法在时序的结构中进行最小化假设。我们使用多层LSTM模型将输入序列...
为什么三次握手中Ack=Seq+1？ tcp/ip 网络
2022-01-25 12:04

回答 2 已采纳首先在携带有数据时我们的ack=seq+lenth（数据），这样他表示了期待的下一个包的第一个序列号和收到的这个包的数据量，你如果确认号和序列号不发生变化，都一样，你咋知道你收到的是当前包还是之前的包
转录组qRT-PCR和RNA-seq数据相关性问答团队
2023-03-25 09:29

回答 1 已采纳参考GPT和自己的思路：可以使用散点图来表示转录组qRT-PCR和RNA-seq数据相关性。首先将这两组数据进行归一化处理，计算它们的相关系数，然后将相关系数作为横轴，将实验数据的对数比值作为纵轴，用
运行DB2的自定义函数出现问题，求教 java mysql oracle
2019-04-28 20:38

回答 1 已采纳我在DBeaver中新建了一个函数脚本，把函数复制进去， end 后面去掉分号，鼠标要把函数全部选中右击执行执行sql语句。成功此问答结束
【Image captioning】ruotianluo/self-critical.pytorch之4—模型训练之train.py代码解析
2023-08-08 16:04

安静到无声的博客同样，Python 2.x中的整数除法是向下取整的，而Python 3.x中的整数除法是精确的，因此需要导入__future__模块中的division特性。这样，我们就可以在 TensorBoard 的界面中实时监控模型在训练过程中各项指标的变化...
deep 机器翻译的本质是不是也是找相似，对于输入seq，从训练集里寻找最相似的输入seq？自然语言处理
2021-07-21 09:20

回答 1 已采纳可以这么理解
sql 一般模糊查询语句,查询表T , 表T2的SEQ是条件，请问模糊查询如何能够匹配表T2的SEQ多个字符? sql
2022-04-14 17:30

回答 4 已采纳没这么复杂，使用 EXISTS子查询即可以下SQL在MySQL 8中运行通过 WITH t AS ( SELECT '09 22 25' notext UNION ALL
RNA-seq在subread比对时提示不能找到gene identifie 同时输出的txt文件格式混乱 linux
2022-12-24 22:13

回答 3 已采纳 1、警告信息 "Unable to find gene identifier for a feature" 表示 Subread 在处理 GTF 文件时无法找到 gene_id 属性，也就是说你使用的
Sequence to Sequence Learning with Neural Networks翻译
2019-07-04 17:57

zhu_zhu_zhu_zhu_zhu的博客由于最近学习的需要，对论文《Sequence to Sequence Learning with Neural Networks》进行了不地道的...深度神经网络(DNNs)是一种功能强大的神经网络模型，在复杂的学习任务中取得了优异的性能。尽管当有大量标记...
oracal seq.nextval 序列不存在 eclipse 数据库
2016-04-23 17:43

回答 2 已采纳数据库中有seq这个对象吗？
看图说话实战教程 | 第三节 | 模型构建及训练
2020-03-30 12:38

DestinedAI的博客拟合模型模型构建完毕后，我们就要开始在训练集上训练我们的模型了。为了避免模型过拟合，需要用验证集去监测模型的性能表现。这也是模型训练的必需的做法。当每一次迭代结束在验证集上的模型性能有所提升时，...
Sequence to Sequence Learning with Neural Networks论文翻译
2019-04-25 17:04

Hhhy云帆的博客实验3.1 数据集详细信息3.2 解码和重新评分3.3 反转源语句3.4 训练详情3.5 并行化3.6 实验结果3.7 长句子的表现3.8 模型分析4. 相关工作5. 结论6. 致谢引用摘要深度神经网络是在困难的学习任务中取得卓越性能的...
没有解决我的问题, 去提问

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图2.0 版本点聚合中Marker的位置无法实时更新，如何解决呢？
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

tacotron(seq2seq)模型训练80k步后损失函数上升

alignment:

学习率/损失/梯度等曲线：

** 模型参数：**

1条回答 默认 最新

悬赏问题

模型参数：

1条回答默认最新