transformer（attention-is-all-you-need-pytorch）训练报错

原训练代码：

python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000

报错：

train.py: error: unrecognized arguments: -log m30k_deen_shr

去掉：log m30k_deen_shr

报错：

File "train.py", line 367, in <module>
    main()
  File "train.py", line 275, in main
    training_data, validation_data = prepare_dataloaders(opt, device)
  File "train.py", line 341, in prepare_dataloaders
    data = pickle.load(open(opt.data_pkl, 'rb'))
  File "C:\ProgramData\Anaconda3\envs\transformer2\lib\site-packages\dill\dill.py", line 266, in load
    obj = pik.load()
  File "C:\ProgramData\Anaconda3\envs\transformer2\lib\site-packages\dill\dill.py", line 423, in find_class
    return StockUnpickler.find_class(self, module, name)
  File "C:\ProgramData\Anaconda3\envs\transformer2\lib\site-packages\spacy\lemmatizer.py", line 5, in <module>
    from .symbols import VerbForm_inf, VerbForm_none, Number_sing, Degree_pos
ImportError: cannot import name 'VerbForm_inf'

train.py

'''
This script handles the training process.
'''

import argparse
import math
import time
import dill as pickle
from tqdm import tqdm
import numpy as np
import random
import os

import torch
import torch.nn.functional as F
import torch.optim as optim
from torchtext.data import Field, Dataset, BucketIterator
from torchtext.datasets import TranslationDataset

import transformer.Constants as Constants
from transformer.Models import Transformer
from transformer.Optim import ScheduledOptim

__author__ = "Yu-Hsiang Huang"

def cal_performance(pred, gold, trg_pad_idx, smoothing=False):
    ''' Apply label smoothing if needed '''

    loss = cal_loss(pred, gold, trg_pad_idx, smoothing=smoothing)

    pred = pred.max(1)[1]
    gold = gold.contiguous().view(-1)
    non_pad_mask = gold.ne(trg_pad_idx)
    n_correct = pred.eq(gold).masked_select(non_pad_mask).sum().item()
    n_word = non_pad_mask.sum().item()

    return loss, n_correct, n_word


def cal_loss(pred, gold, trg_pad_idx, smoothing=False):
    ''' Calculate cross entropy loss, apply label smoothing if needed. '''

    gold = gold.contiguous().view(-1)

    if smoothing:
        eps = 0.1
        n_class = pred.size(1)

        one_hot = torch.zeros_like(pred).scatter(1, gold.view(-1, 1), 1)
        one_hot = one_hot * (1 - eps) + (1 - one_hot) * eps / (n_class - 1)
        log_prb = F.log_softmax(pred, dim=1)

        non_pad_mask = gold.ne(trg_pad_idx)
        loss = -(one_hot * log_prb).sum(dim=1)
        loss = loss.masked_select(non_pad_mask).sum()  # average later
    else:
        loss = F.cross_entropy(pred, gold, ignore_index=trg_pad_idx, reduction='sum')
    return loss


def patch_src(src, pad_idx):
    src = src.transpose(0, 1)
    return src


def patch_trg(trg, pad_idx):
    trg = trg.transpose(0, 1)
    trg, gold = trg[:, :-1], trg[:, 1:].contiguous().view(-1)
    return trg, gold


def train_epoch(model, training_data, optimizer, opt, device, smoothing):
    ''' Epoch operation in training phase'''

    model.train()
    total_loss, n_word_total, n_word_correct = 0, 0, 0 

    desc = '  - (Training)   '
    for batch in tqdm(training_data, mininterval=2, desc=desc, leave=False):

        # prepare data
        src_seq = patch_src(batch.src, opt.src_pad_idx).to(device)
        trg_seq, gold = map(lambda x: x.to(device), patch_trg(batch.trg, opt.trg_pad_idx))

        # forward
        optimizer.zero_grad()
        pred = model(src_seq, trg_seq)

        # backward and update parameters
        loss, n_correct, n_word = cal_performance(
            pred, gold, opt.trg_pad_idx, smoothing=smoothing) 
        loss.backward()
        optimizer.step_and_update_lr()

        # note keeping
        n_word_total += n_word
        n_word_correct += n_correct
        total_loss += loss.item()

    loss_per_word = total_loss/n_word_total
    accuracy = n_word_correct/n_word_total
    return loss_per_word, accuracy


def eval_epoch(model, validation_data, device, opt):
    ''' Epoch operation in evaluation phase '''

    model.eval()
    total_loss, n_word_total, n_word_correct = 0, 0, 0

    desc = '  - (Validation) '
    with torch.no_grad():
        for batch in tqdm(validation_data, mininterval=2, desc=desc, leave=False):

            # prepare data
            src_seq = patch_src(batch.src, opt.src_pad_idx).to(device)
            trg_seq, gold = map(lambda x: x.to(device), patch_trg(batch.trg, opt.trg_pad_idx))

            # forward
            pred = model(src_seq, trg_seq)
            loss, n_correct, n_word = cal_performance(
                pred, gold, opt.trg_pad_idx, smoothing=False)

            # note keeping
            n_word_total += n_word
            n_word_correct += n_correct
            total_loss += loss.item()

    loss_per_word = total_loss/n_word_total
    accuracy = n_word_correct/n_word_total
    return loss_per_word, accuracy


def train(model, training_data, validation_data, optimizer, device, opt):
    ''' Start training '''

    # Use tensorboard to plot curves, e.g. perplexity, accuracy, learning rate
    if opt.use_tb:
        print("[Info] Use Tensorboard")
        from torch.utils.tensorboard import SummaryWriter
        tb_writer = SummaryWriter(log_dir=os.path.join(opt.output_dir, 'tensorboard'))

    log_train_file = os.path.join(opt.output_dir, 'train.log')
    log_valid_file = os.path.join(opt.output_dir, 'valid.log')

    print('[Info] Training performance will be written to file: {} and {}'.format(
        log_train_file, log_valid_file))

    with open(log_train_file, 'w') as log_tf, open(log_valid_file, 'w') as log_vf:
        log_tf.write('epoch,loss,ppl,accuracy\n')
        log_vf.write('epoch,loss,ppl,accuracy\n')

    def print_performances(header, ppl, accu, start_time, lr):
        print('  - {header:12} ppl: {ppl: 8.5f}, accuracy: {accu:3.3f} %, lr: {lr:8.5f}, '\
              'elapse: {elapse:3.3f} min'.format(
                  header=f"({header})", ppl=ppl,
                  accu=100*accu, elapse=(time.time()-start_time)/60, lr=lr))

    #valid_accus = []
    valid_losses = []
    for epoch_i in range(opt.epoch):
        print('[ Epoch', epoch_i, ']')

        start = time.time()
        train_loss, train_accu = train_epoch(
            model, training_data, optimizer, opt, device, smoothing=opt.label_smoothing)
        train_ppl = math.exp(min(train_loss, 100))
        # Current learning rate
        lr = optimizer._optimizer.param_groups[0]['lr']
        print_performances('Training', train_ppl, train_accu, start, lr)

        start = time.time()
        valid_loss, valid_accu = eval_epoch(model, validation_data, device, opt)
        valid_ppl = math.exp(min(valid_loss, 100))
        print_performances('Validation', valid_ppl, valid_accu, start, lr)

        valid_losses += [valid_loss]

        checkpoint = {'epoch': epoch_i, 'settings': opt, 'model': model.state_dict()}

        if opt.save_mode == 'all':
            model_name = 'model_accu_{accu:3.3f}.chkpt'.format(accu=100*valid_accu)
            torch.save(checkpoint, model_name)
        elif opt.save_mode == 'best':
            model_name = 'model.chkpt'
            if valid_loss <= min(valid_losses):
                torch.save(checkpoint, os.path.join(opt.output_dir, model_name))
                print('    - [Info] The checkpoint file has been updated.')

        with open(log_train_file, 'a') as log_tf, open(log_valid_file, 'a') as log_vf:
            log_tf.write('{epoch},{loss: 8.5f},{ppl: 8.5f},{accu:3.3f}\n'.format(
                epoch=epoch_i, loss=train_loss,
                ppl=train_ppl, accu=100*train_accu))
            log_vf.write('{epoch},{loss: 8.5f},{ppl: 8.5f},{accu:3.3f}\n'.format(
                epoch=epoch_i, loss=valid_loss,
                ppl=valid_ppl, accu=100*valid_accu))

        if opt.use_tb:
            tb_writer.add_scalars('ppl', {'train': train_ppl, 'val': valid_ppl}, epoch_i)
            tb_writer.add_scalars('accuracy', {'train': train_accu*100, 'val': valid_accu*100}, epoch_i)
            tb_writer.add_scalar('learning_rate', lr, epoch_i)

def main():
    ''' 
    Usage:
    python train.py -data_pkl m30k_deen_shr.pkl -log m30k_deen_shr -embs_share_weight -proj_share_weight -label_smoothing -output_dir output -b 256 -warmup 128000
    '''

    parser = argparse.ArgumentParser()

    parser.add_argument('-data_pkl', default=None)     # all-in-1 data pickle or bpe field

    parser.add_argument('-train_path', default=None)   # bpe encoded data
    parser.add_argument('-val_path', default=None)     # bpe encoded data

    parser.add_argument('-epoch', type=int, default=10)
    parser.add_argument('-b', '--batch_size', type=int, default=2048)

    parser.add_argument('-d_model', type=int, default=512)
    parser.add_argument('-d_inner_hid', type=int, default=2048)
    parser.add_argument('-d_k', type=int, default=64)
    parser.add_argument('-d_v', type=int, default=64)

    parser.add_argument('-n_head', type=int, default=8)
    parser.add_argument('-n_layers', type=int, default=6)
    parser.add_argument('-warmup','--n_warmup_steps', type=int, default=4000)
    parser.add_argument('-lr_mul', type=float, default=2.0)
    parser.add_argument('-seed', type=int, default=None)

    parser.add_argument('-dropout', type=float, default=0.1)
    parser.add_argument('-embs_share_weight', action='store_true')
    parser.add_argument('-proj_share_weight', action='store_true')
    parser.add_argument('-scale_emb_or_prj', type=str, default='prj')

    parser.add_argument('-output_dir', type=str, default=None)
    parser.add_argument('-use_tb', action='store_true')
    parser.add_argument('-save_mode', type=str, choices=['all', 'best'], default='best')

    parser.add_argument('-no_cuda', action='store_true')
    parser.add_argument('-label_smoothing', action='store_true')

    opt = parser.parse_args()
    opt.cuda = not opt.no_cuda
    opt.d_word_vec = opt.d_model

    # https://pytorch.org/docs/stable/notes/randomness.html
    # For reproducibility
    if opt.seed is not None:
        torch.manual_seed(opt.seed)
        torch.backends.cudnn.benchmark = False
        # torch.set_deterministic(True)
        np.random.seed(opt.seed)
        random.seed(opt.seed)

    if not opt.output_dir:
        print('No experiment result will be saved.')
        raise

    if not os.path.exists(opt.output_dir):
        os.makedirs(opt.output_dir)

    if opt.batch_size < 2048 and opt.n_warmup_steps <= 4000:
        print('[Warning] The warmup steps may be not enough.\n'\
              '(sz_b, warmup) = (2048, 4000) is the official setting.\n'\
              'Using smaller batch w/o longer warmup may cause '\
              'the warmup stage ends with only little data trained.')

    device = torch.device('cuda' if opt.cuda else 'cpu')

    #========= Loading Dataset =========#

    if all((opt.train_path, opt.val_path)):
        training_data, validation_data = prepare_dataloaders_from_bpe_files(opt, device)
    elif opt.data_pkl:
        training_data, validation_data = prepare_dataloaders(opt, device)
    else:
        raise

    print(opt)

    transformer = Transformer(
        opt.src_vocab_size,
        opt.trg_vocab_size,
        src_pad_idx=opt.src_pad_idx,
        trg_pad_idx=opt.trg_pad_idx,
        trg_emb_prj_weight_sharing=opt.proj_share_weight,
        emb_src_trg_weight_sharing=opt.embs_share_weight,
        d_k=opt.d_k,
        d_v=opt.d_v,
        d_model=opt.d_model,
        d_word_vec=opt.d_word_vec,
        d_inner=opt.d_inner_hid,
        n_layers=opt.n_layers,
        n_head=opt.n_head,
        dropout=opt.dropout,
        scale_emb_or_prj=opt.scale_emb_or_prj).to(device)

    optimizer = ScheduledOptim(
        optim.Adam(transformer.parameters(), betas=(0.9, 0.98), eps=1e-09),
        opt.lr_mul, opt.d_model, opt.n_warmup_steps)

    train(transformer, training_data, validation_data, optimizer, device, opt)


def prepare_dataloaders_from_bpe_files(opt, device):
    batch_size = opt.batch_size
    MIN_FREQ = 2
    if not opt.embs_share_weight:
        raise

    data = pickle.load(open(opt.data_pkl, 'rb'))
    MAX_LEN = data['settings'].max_len
    field = data['vocab']
    fields = (field, field)

    def filter_examples_with_length(x):
        return len(vars(x)['src']) <= MAX_LEN and len(vars(x)['trg']) <= MAX_LEN

    train = TranslationDataset(
        fields=fields,
        path=opt.train_path, 
        exts=('.src', '.trg'),
        filter_pred=filter_examples_with_length)
    val = TranslationDataset(
        fields=fields,
        path=opt.val_path, 
        exts=('.src', '.trg'),
        filter_pred=filter_examples_with_length)

    opt.max_token_seq_len = MAX_LEN + 2
    opt.src_pad_idx = opt.trg_pad_idx = field.vocab.stoi[Constants.PAD_WORD]
    opt.src_vocab_size = opt.trg_vocab_size = len(field.vocab)

    train_iterator = BucketIterator(train, batch_size=batch_size, device=device, train=True)
    val_iterator = BucketIterator(val, batch_size=batch_size, device=device)
    return train_iterator, val_iterator


def prepare_dataloaders(opt, device):
    batch_size = opt.batch_size
    data = pickle.load(open(opt.data_pkl, 'rb'))

    opt.max_token_seq_len = data['settings'].max_len
    opt.src_pad_idx = data['vocab']['src'].vocab.stoi[Constants.PAD_WORD]
    opt.trg_pad_idx = data['vocab']['trg'].vocab.stoi[Constants.PAD_WORD]

    opt.src_vocab_size = len(data['vocab']['src'].vocab)
    opt.trg_vocab_size = len(data['vocab']['trg'].vocab)

    #========= Preparing Model =========#
    if opt.embs_share_weight:
        assert data['vocab']['src'].vocab.stoi == data['vocab']['trg'].vocab.stoi, \
            'To sharing word embedding the src/trg word2idx table shall be the same.'

    fields = {'src': data['vocab']['src'], 'trg':data['vocab']['trg']}

    train = Dataset(examples=data['train'], fields=fields)
    val = Dataset(examples=data['valid'], fields=fields)

    train_iterator = BucketIterator(train, batch_size=batch_size, device=device, train=True)
    val_iterator = BucketIterator(val, batch_size=batch_size, device=device)

    return train_iterator, val_iterator


if __name__ == '__main__':
    main()

pip list:

-e-core-news-sm          3.0.0
-ill                     0.2.9
aiohttp                  3.7.4
async-timeout            3.0.1
attrs                    21.2.0
blis                     0.7.4
boto                     2.49.0
boto3                    1.17.88
botocore                 1.20.88
brotlipy                 0.7.0
bz2file                  0.98
cachetools               4.2.2
catalogue                2.0.4
certifi                  2021.5.30
cffi                     1.14.5
chardet                  4.0.0
click                    7.1.2
colorama                 0.4.4
contextvars              2.4
cryptography             3.4.7
cymem                    2.0.5
cytoolz                  0.8.2
dataclasses              0.8
de-core-news-md          1.0.0
de-core-news-sm          3.0.0
dill                     0.2.6
en-core-web-sm           3.0.0
google-api-core          1.26.3
google-auth              1.30.0
google-cloud-core        1.5.0
google-cloud-storage     1.19.0
google-crc32c            1.1.2
google-resumable-media   1.2.0
googleapis-common-protos 1.53.0
grpcio                   1.38.0
idna                     2.10
idna-ssl                 1.1.0
immutables               0.15
Jinja2                   3.0.1
jmespath                 0.10.0
joblib                   1.0.1
log-symbols              0.0.14
MarkupSafe               2.0.1
mkl-fft                  1.3.0
mkl-random               1.1.1
mkl-service              2.3.0
mpmath                   1.2.1
multidict                5.1.0
murmurhash               1.0.5
nltk                     3.6.2
numpy                    1.19.2
olefile                  0.46
packaging                20.9
pathlib                  1.0.1
pathy                    0.5.2
Pillow                   8.2.0
pip                      21.0.1
plac                     0.9.6
preshed                  3.0.5
protobuf                 3.17.2
pyasn1                   0.4.8
pyasn1-modules           0.2.7
pycparser                2.20
pydantic                 1.7.3
pyOpenSSL                20.0.1
pyparsing                2.4.7
pyreadline               2.1
PySocks                  1.7.1
python-dateutil          2.8.1
pytz                     2021.1
PyYAML                   3.13
regex                    2017.4.5
requests                 2.25.1
rsa                      4.7.2
s3transfer               0.4.2
sentencepiece            0.1.95
setuptools               52.0.0.post20210125
shellingham              1.4.0
six                      1.15.0
smart-open               2.2.1
spacy                    3.0.6
spacy-legacy             3.0.5
srsly                    2.4.1
termcolor                1.1.0
thinc                    8.0.3
toolz                    0.11.1
torch                    1.0.0
torchtext                0.6.0
torchvision              0.2.1
tqdm                     4.61.0
typer                    0.3.2
typing-extensions        3.10.0.0
ujson                    4.0.2
urllib3                  1.25.11
wasabi                   0.8.2
wheel                    0.36.2
win-inet-pton            1.1.0
wincertstore             0.2
wrapt                    1.12.1
yarl                     1.6.3
zipp                     3.4.1

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
KXS_T 2021-06-10 22:22
关注
换了几个dill版本，还是没用。原训练代码中-log m30k_deen_shr是什么意思呀，train中没有parser.add_argument('-log,XXX, XXX)呀。只要读取pkl文件就报错，报错中dill为何会跳到spacy去。是spacy的问题吗？唔头大头大，求大佬看看

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

the following arguments are required: --cfg这个要怎么解决 python
2021-03-24 14:30

回答 3 已采纳这应该是你的test.py需要一个名叫cfg的参数。具体使用方法只有看到你的代码之后才能了解。你可以私信我以更详细说明代码情况。命令行输入F:\Anaconda\python.exe G:/d
pytorch的一个报错该如何解决？ pytorch transformer 图像处理
2023-03-03 16:34

回答 2 已采纳小魔女参考了bing和GPT部分内容调写:如果你使用的是pytorch1.5.1版本，那么你应该安装apex包的1.0.1版本。安装不对的话，可能会出现报错，比如模型训练时出现RuntimeError
在 TF-IDF 特征提取的基础上对模型建立与评估 python 逻辑回归
2023-02-11 22:48

回答 4 已采纳 import numpy as np import pandas as pd import time import jieba import re import string import pick
Python-Attentionisallyouneed一个Pytorch实现
2019-08-11 04:27

A PyTorch implementation of the Transformer model in "Attention is All You Need
Java-flink的sum方法输出 flink
2022-06-05 15:31

回答 1 已采纳我的打印出来了，，，我代码是这样的 import org.apache.flink.api.common.RuntimeExecutionMode; import org.apache.flink.
基于深度学习的超分辨率重建pytorch程序训练不起来 pytorch transformer 超分辨率重建
2022-01-08 20:54

回答 1 已采纳这里的意思是在第1个epoch出现了PSNR为无穷大（Nan）的情况！建议对forward里面的每一步的变量的值打印看看，是哪一步的计算导致出现了无穷大（Nan）
利用Python构建transformer pycharm python
2022-01-02 14:11

回答 1 已采纳看起来是层次出了问题。红框部分，全部向右移4个空格（意思就是每行前面敲4个空格）
《Attention is all you need》Pytorch源码各模块输入输出详解
2023-04-23 17:00

胖胖大海的博客关于Transformer架构和原理解析的优秀文章有好多，这里列出一些供大家参考学习。本篇也就不对Transformer的结构和原理进行解读了（肯定没他们解读的好）。上述参考文献足以让一个初学者完全了解transformer的架构及...
yolov5 训练模型报错 python 人工智能有问必答深度学习
2022-02-19 21:51

回答 2 已采纳 Train Custom Data · ultralytics/yolov5 Wiki · GitHub YOLOv5 🚀 in PyT
Symfony2 - 如何在EventListeners中使用Data Transformer php symfony
2015-11-18 20:36

回答 2 已采纳 Short answer: You can´t add the transformer inside the listener because the form is already locked
Pytorch调用bertEncoderbaTypeError: forward() missing 1 required positional argument: 'attention_mask' bert pytorch 深度学习
2022-07-07 15:35

回答 2 已采纳已解决，根本原因是数据格式的问题，在使用bert_encoder之前，需要将数据格式转换为BertData()格式
PyTorch笔记 - Attention Is All You Need (1)
2022-07-28 09:03

SpikeKing的博客在训练时，如果每次将预测结果输入还没有训练好的模型会让输出结果越走越偏。因此在训练时采用了”TeacherForcing“技巧，不管模型输出的结果是什么，每次将正确的输出结果作为Decoder的输入继续预测。...
$ form-> isValid（）之后的Symfony数据转换器 php symfony
2015-07-27 23:54

回答 1 已采纳 You can't, according to the documents. Symfony's form library uses the validator service inter
Transformer - Attention is all you need 论文阅读
2024-01-07 19:03

Karen_Yu_的博客在主流的序列转录模型中，主要是依赖循环或者卷积神经网络，一般是使用encoder和decoder的架构，在一些性能最好的模型中，通常也会在encoder和ecoder之间使用一个称为attention mechanism（注意力机制）这篇文章主要...
transformers_without_tears:无泪变形金刚
2021-05-05 10:27

Ace：Pytorch中Transformer的实现圣母大学这是纸质的重新实现。尽管该代码最初是为使用多语言NMT进行实验而开发的，但本文以及本指南中提到的所有实验仅适用于双语。关于代码的多语言部分，我遵循并添加了以下...
没有解决我的问题, 去提问

悬赏问题

¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题
¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程

transformer（attention-is-all-you-need-pytorch）训练报错

2条回答 默认 最新

悬赏问题

2条回答默认最新