狗狗学不会 2022-12-31 20:12 采纳率: 100%
浏览 89
已结题

yolov5训练模型时遇到nan

今天遇到了一个问题,我在训练yolov5模型的时候,选择的权重文件是用yolov5s.pt文件 (GPU)正常运行,但是我换了大一点的yolov5m.pt训练的时候,我的全部数据都变nan, 接着我尝试换cpu跑yolov5m.p,数据和模型又恢复正常,接着我换更小的权重yolov5n.pt(使用GPU跑)模型和数据正常了 。
我的猜想是显卡的性能问题限制了权重模型的选择(个人使用的是mx450 2g),但是奇怪的是跑的时候却没有报关于显存的问题。
我看到博客上相关问题很少,但是我依然不解。
另外,我今天还遇到另外一个问题,我在划分训练集和验证集的时候选择的比例是7:3模型跑第一轮快80%之前都正常,但是到80%-100% 数据就全部变成nan,接着我换了6:4的比例重新运行,数据又恢复了正常。
希望有经验或者类似经历的小伙伴能够给我解答。

  • 写回答

2条回答 默认 最新

  • ChatGPTᴼᴾᴱᴺᴬᴵ 2022-12-31 20:27
    关注

    很遗憾,我无法确定你遇到的问题的原因。在没有更多的信息的情况下,我只能给出一些潜在的建议。


    首先,如果你发现模型使用更大的权重文件时在 GPU 上运行会导致数据全部变为 nan,可能是因为你的 GPU 显存不足以运行这个模型。你可以检查 GPU 的显存使用情况,以确定是否有这个问题。


    其次,如果你发现训练过程中数据全部变为 nan 并且改变训练集和验证集的划分比例后又恢复了正常,可能是因为你的数据集中有某些异常数据,导致模型在训练过程中出现了问题。你可以尝试检查数据集中是否有损坏的图像或者其他的异常数据,并将它们从数据集中删除。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 1月8日
  • 已采纳回答 12月31日
  • 创建了问题 12月31日

悬赏问题

  • ¥15 在rhel8中安装qemu-kvm时遇到“cannot initialize crypto:unable to initialize gcrypt“报错”
  • ¥15 arbotix没有/cmd_vel话题
  • ¥15 paddle库安装时报错提示需要安装common、dual等库,安装了上面的库以后还是显示报错未安装,要怎么办呀?
  • ¥20 找能定制Python脚本的
  • ¥15 odoo17的分包重新供应路线如何设置?可从销售订单中实时直接触发采购订单或相关单据
  • ¥15 用C语言怎么判断字符串的输入是否符合设定?
  • ¥15 通信专业本科生论文选这两个哪个方向好研究呀
  • ¥50 我在一个购物网站的排队系统排队,这个排队到号后重新定向到目标网站进行购物,但是有技术牛通过技术方法直接跳过排队系统进入目标网址购物,有没有什么软件或者脚本可以用
  • ¥15 ios可以实现ymodem-1k协议 1024字节传输吗?
  • ¥300 寻抓云闪付tn组成网页付款链接