yolov8运行后result.csv文件中box_loss、cls_loss和dfl_loss为nan

val的box_loss、cls_loss和dfl_loss在控制台是正常值而result.csv中这三个值为nan
控制台中显示：

result.csv中显示：

控制台警告：

E:\python\python3.12.3\Lib\site-packages\torch\autograd\graph.py:744: UserWarning: adaptive_avg_pool2d_backward_cuda does not have a deterministic implementation, but you set 'torch.use_deterministic_algorithms(True, warn_only=True)'. You can file an issue at https://github.com/pytorch/pytorch/issues to help us prioritize adding deterministic support for this operation. (Triggered internally at ..\aten\src\ATen\Context.cpp:87.)
  return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass

可能指的是这行代码：

希望有遇到过的人，能解答我的疑问！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间代码工作室 Java领域优质创作者 2024-05-11 14:35
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题描述：在训练模型时，通过控制台可以正常看到val的box_loss、cls_loss和dfl_loss的值，但是输出到result.csv文件中却是nan。同时，控制台还提示了一个警告，可能与代码中的一行语句有关。解决方案：
首先查看代码，判断是否有对结果进行约束或输出处理。例如，可能出现了对负数或空值进行log运算的情况。如下代码：

import numpy as np eps = 1e-6 log_x = np.log(x + eps) # 对x加上eps进行约束，避免出现负无穷的情况

如果有这样的约束或处理，需要检查eps的值是否合理，如果eps的值过小，可能会导致值域溢出；如果eps的值过大，可能会对结果造成较大影响。 2. 检查数据是否正常，例如是否有nan、inf等非数值型的数据。有时候我们需要对数据进行一些异常处理，如下代码：

if np.isnan(x) or np.isinf(x): x = 0

如果有这样的异常处理，需要检查处理逻辑是否合理，在何时产生nan或inf等非数值型数据。 3. 查看是否有其他部分对文件进行修改，可能是输出result.csv文件时，其他代码对该文件进行了修改，需要检查其他部分代码是否合理。 4. 最后，根据控制台的警告信息所示，可能是相关函数没有实现deterministic，加上如下代码可以关闭警告信息：

torch.use_deterministic_algorithms(True, warn_only=True)

但需要注意，如果我们在训练时需要deterministic结果，那么关闭警告信息可能会带来其他问题，需要注意代码的运行环境和需求。案例：假设我们的代码如下所示：

import numpy as np import torch eps = 1e-6 torch.use_deterministic_algorithms(True, warn_only=True) # 模拟训练，产生box_loss、cls_loss和dfl_loss的值 box_loss = np.random.rand(1)[0] * 10 cls_loss = np.random.rand(1)[0] * 10 dfl_loss = np.random.rand(1)[0] * 10 # 将结果输出，避免出现nan等异常值 if np.isnan(box_loss) or np.isinf(box_loss): box_loss = 0 if np.isnan(cls_loss) or np.isinf(cls_loss): cls_loss = 0 if np.isnan(dfl_loss) or np.isinf(dfl_loss): dfl_loss = 0 # 输出到控制台 print("box_loss: {}, cls_loss: {}, dfl_loss: {}".format(box_loss, cls_loss, dfl_loss)) # 输出到文件result.csv中 with open("result.csv", "a") as f: f.write("{}, {}, {}\n".format(box_loss, cls_loss, dfl_loss))

运行结果：控制台输出：

box_loss: 7.569532816515185, cls_loss: 1.8396030818834146, dfl_loss: 9.113345658918491

result.csv文件中的内容：

nan, nan, nan

同时，控制台中还提示了下面的警告信息：

E:\python\python3.12.3\Lib\site-packages\torch\autograd\graph.py:744: UserWarning: adaptive_avg_pool2d_backward_cuda does not have a deterministic implementation, but you set 'torch.use_deterministic_algorithms(True, warn_only=True)'. You can file an issue at https://github.com/pytorch/pytorch/issues to help us prioritize adding deterministic support for this operation. (Triggered internally at ..\aten\src\ATen\Context.cpp:87.) return Variable._execution_engine.run_backward(

我们可以根据提示信息判断，可能是torch.use_deterministic_algorithms(True, warn_only=True)这句代码引起了警告，需要注释掉此句话，或者不需要deterministic结果的情况下，关掉警告信息。

import numpy as np import torch eps = 1e-6 # torch.use_deterministic_algorithms(True, warn_only=True) # 模拟训练，产生box_loss、cls_loss和dfl_loss的值 box_loss = np.random.rand(1)[0] * 10 cls_loss = np.random.rand(1)[0] * 10 dfl_loss = np.random.rand(1)[0] * 10 # 将结果输出，避免出现nan等异常值 if np.isnan(box_loss) or np.isinf(box_loss): box_loss = 0 if np.isnan(cls_loss) or np.isinf(cls_loss): cls_loss = 0 if np.isnan(dfl_loss) or np.isinf(dfl_loss): dfl_loss = 0 # 输出到控制台 print("box_loss: {}, cls_loss: {}, dfl_loss: {}".format(box_loss, cls_loss, dfl_loss)) # 输出到文件result.csv中 with open("result.csv", "a") as f: f.write("{}, {}, {}\n".format(box_loss, cls_loss, dfl_loss))

运行结果：控制台输出：

box_loss: 4.685679496380982, cls_loss: 6.440735437997845, dfl_loss: 9.312282710238691

result.csv文件中的内容：

4.685679496380982, 6.440735437997845, 9.312282710238691

警告信息消失，可知警告信息是由torch.use_deterministic_algorithms(True, warn_only=True)这句话引起的。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

yolov5训练结果只有loss为0 python 机器学习深度学习
2022-10-13 20:50

回答 1 已采纳单个类别的时候，train里面要将single-cls设置为true，或者参数里面加上--single-cls
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
php set_time_limit（）在php-fpm上生成超时 php
2017-05-16 09:00

回答 2 已采纳 I extended /etc/nginx/nginx.conf http section with the followings: client_header_timeout 3000; cl
YOLOv10写作必备：多种绘制曲线对比图（precision、recall、mAP50、mAP50-95），为科研保驾护航
2024-06-11 20:05

AI小怪兽的博客多种绘制曲线对比图（precision、recall、mAP50、mAP50-95），为科研保驾护航
为代码添加注释讲解一下 c++ c语言 linux
2023-01-05 13:38

回答 2 已采纳整个代码实现了系统重启的功能。第 1 行 sync() 函数用于将内存中未写入磁盘的数据强制写入磁盘，确保系统重启后数据不丢失。第 2 行 usleep() 函数用于线程休眠，单位是微秒。这里的意思
linux上tomcat启动时部分项目未启动 java linux tomcat
2022-09-19 11:27

回答 4 已采纳修改jvm的内存-Xms512-Xmx4096m-XX:PermSize=512M-XX:MaxPermSize=2048M如果有tomcat的话也需要修改一下 tomcat 的内存
C# 对象格式的json字符串数据添加到一个数组里面 c# json 后端
2022-12-22 10:11

回答 2 已采纳没看懂你这同样的数据搞两遍是想干什么，dataSourceList.Add(json);dataSourceList.Add(json);执行两遍不就行了吗或者你直接字符串拼接都行 json=str
自动连续训练多个改进的yolov8模型
2023-10-27 19:29

寥落半伤感的博客当对模型有多种改法时可实现自动连续训练，无需等一种改法训练完后再手动点击开始运行，这样就可以充分利用晚上的时间并方便远程训练模型。1.可选择是否在电脑上登录网页版微信，然后通过手机来实时接收训练信息。2....
用Jupyter出现了name 'df' is not defined的问题 jupyter python 有问必答
2021-06-19 21:49

回答 4 已采纳你这个变量是在另一个方法里面定义的，你把df在main函数里定义就好了
是否有一种可移植的方法来为flock（）设置超时？ php
2016-11-20 23:12

回答 1 已采纳 I don't think that there is any way to do this on Windows without a busy wait / polling loop. PHP
Puzzlestan
2017-07-26 15:33

回答 1 已采纳 http://poj.org/problem?id=1683
YOLOv2训练时参数调整情况及分析
2018-07-18 17:53

米小凡的博客在进行YOLOv2训练的时候，我们想要更直观的看到模型的情况，那我们可以使用模型训练可视化得到模型的参数随时间变化的情况，这样我们也能判断出模型的好坏。(并不是训练时间越长，模型越好，我们通过可视化来找到...
绘制实验的曲线对比图-yolov8
2024-03-08 23:02

@nullptr的博客 tips:需要保存好results.csv文件，plot_results.py文件在ultralytics-main下，需要有多个使用。
Yolov8 源码解析（六）
2024-09-06 09:37

绝不原创的飞龙的博客【代码】Yolov8 源码解析（六）
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月11日

悬赏问题

¥15 Mac版Fiddler Everywhere4.0.1提示强制更新
¥15 android 集成sentry上报时报错。
¥50 win10链接MySQL
¥35 跳过我的世界插件ip验证
¥15 抖音看过的视频，缓存在哪个文件
¥15 自定义损失函数报输入参数的数目不足
¥15 如果我想学习C大家有是的的资料吗
¥15 根据文件名称对文件进行排序
¥15 deploylinux的ubuntu系统无法成功安装使用MySQL❓
¥15 有人会用py或者r画这种图吗

yolov8运行后result.csv文件中box_loss、cls_loss和dfl_loss为nan

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新