QYLZ 2023-06-27 05:14 采纳率: 66.7%
浏览 34
已结题

使用paddle的uie-base进行信息提取出现模型不收敛的bug

在进行信息提取实验的过程中,数据标注应该没问题,选择了PaddleNLP的uie-base模型进行训练,并进行模型微调,官方文档用的是gpu,但是由于电脑没有gpu,因此我改成了cpu,设置的epoch是20次,但是训练过了20次依然不停,请问一下有没有知道的伙伴可以解惑一下,下边时模型微调时的代码:

python finetune.py  \
    --device cpu \
    --logging_steps 10 \
    --save_steps 100 \
    --eval_steps 100 \
    --seed 1000 \
    --model_name_or_path uie-base \
    --output_dir ./checkpoint/model_best \
    --train_path data/train.txt \
    --dev_path data/dev.txt  \
    --max_seq_len 512  \
    --per_device_train_batch_size  16 \
    --per_device_eval_batch_size 16 \
    --num_train_epochs 20 \
    --learning_rate 1e-5 \
    --do_train \
    --do_eval \
    --do_export \
    --export_model_dir ./checkpoint/model_best \
    --overwrite_output_dir \
    --disable_tqdm True \
    --metric_for_best_model eval_f1 \
    --load_best_model_at_end  True \
    --save_total_limit 1

下面是命令行的mo'ximoxi模型微调结果:

img

  • 写回答

1条回答 默认 最新

  • 奶糖 肥晨 前端领域优质创作者 2023-06-27 08:44
    关注

    从您提供的代码看,模型微调的设置似乎没有问题。但是,在使用CPU进行训练时,可能会出现训练速度较慢的情况,尤其是在大规模数据集和复杂模型的情况下。

    在训练期间不停进行下去,可能有以下几种可能的原因:

    1. 训练数据集比较大:如果您使用的是大规模数据集,而且训练机器的CPU性能较低,可能需要更长的时间来完成训练。可以考虑减小训练数据集的规模或者尝试使用分布式训练以加快训练速度。

    2. 模型复杂度较高:如果您使用了较大的模型或者较深的网络结构,这可能导致训练时间较长。您可以尝试选择更轻量级的模型,或者减少模型的层数和参数量来加快训练速度。

    3. 学习率过大或过小:学习率是一个重要的超参数,它决定了模型在每次更新时的步长。如果学习率设置得太大或太小,都可能导致训练困难。您可以尝试调整学习率的大小,通常建议进行学习率调度(learning rate scheduling),逐渐减小学习率,以帮助模型更好地收敛。

    4. 训练中出现错误:特别是在大规模循环训练过程中,如果代码中存在错误或者数据处理的问题,可能导致训练过程无法正常结束。建议仔细检查代码中是否有错误,并确保输入数据正确格式化。

    另外,您提到训练时不停还需要进一步确认:

    是否存在报错提示信息?如果有,请提供具体的错误信息进行进一步分析。
    总的来说,调整训练参数、优化代码和重新检查输入数据等措施可能有助于解决训练持续进行的问题。如仍有疑问,建议查阅PaddleNLP官方文档或在相关社区论坛上咨询其他开发者。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
编辑
预览

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 6月30日
  • 已采纳回答 6月30日
  • 修改了问题 6月27日
  • 创建了问题 6月27日
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部