云GPU训练损失与本机GPU训练相差较大

问题遇到的现象和发生背景

完全相同的代码，几乎相同的环境，在本地运行时损失正常，但在云GPU上运行损失较大（每次运行都维持在0.3左右），且几乎未见下降。本来在云端是可以运行的，因一次本来常用的intel 3090服务器被占用，把环境迁移到了另一台AMD 3090，发现损失值与原来相差较大，以为是AMD的问题，后切换回Intel 3090，问题仍然存在。上网查询，更换过pytorch版本，无用；更换了云GPU提供商，只是损失值有变化一点，未达到问题发生前水平；cuda也符合能使3090正常训练的版本。

本机与服务器配置（使用pycharm）

本地电脑配置：intel i7-8550u nvidia MX150 pytorch1.11 cuda11.6 win11

import torch
print(torch.__version__)

1.11.0

服务器配置：intel e5-2678 v3 nvidia rtx 3090 pytorch1.11 cuda11.3 ubuntu20.04

import torch
print(torch.__version__)

1.11.0+cu113

运行结果及报错内容

以下是本机运行结果：

{'epoch': 1, 'train_loss': 0.19286, 'time': 268.551922, 'val_loss': 0.142595, 'auc_roc': 0.963931, 'acc': 0.94737, 'sp': 0.98576, 'se': 0.678055, 'pr': 0.871593, 'f1': 0.762739, 'aupr': 0.864795, 'tag': 'none'}
第 1 轮模型已保存
最佳模型已保存    
本周期是当前性能最好的周期 | AUC_roc_best: 0.9639308454893082

以下是云端运行结果，设置了随机数种子后，每次运行完第一轮的训练损失都是0.329996，即使对网络进行微调，也是这个结果：

{'epoch': 1, 'train_loss': 0.329996, 'time': 22.727583, 'val_loss': 0.347682, 'auc_roc': 0.68753, 'acc': 0.871742, 'sp': 0.975078, 'se': 0.15076, 'pr': 0.464386, 'f1': 0.227624, 'aupr': 0.287062, 'tag': 'none'}
第 1 轮模型已保存
最佳模型已保存    
本周期是当前性能最好的周期 | AUC_roc_best: 0.6875297052175594

我的解答思路和尝试过的方法

我设定了随机种子同时对本机和云端进行调试，在确保输入数据一致的情况下，一开始二者的参数相差不大（此时未完成一个周期的训练），损失也几乎相同，但逐渐本地的损失开始下降，而云端却未见下降。

我想要达到的结果

希望了解相关问题或者遇到过类似情况的朋友给予帮助，十分感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

YOLO V5怎么多GPU同时训练一个项目？深度学习神经网络
2021-05-11 10:28

回答 1 已采纳 parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu') defau
pytorch 模型在GPU上但训练时仍使用CPU python 有问必答神经网络
2021-05-13 18:05

回答 3 已采纳你要安装cuda和cudnn，参考一下https://zhuanlan.zhihu.com/p/106133822
YOLO v5训练使用CPU正常，使用GPU训练 box cls obj均为nan pytorch 深度学习目标检测
2022-01-15 21:21

回答 2 已采纳解决了，既然锁定问题出在显卡上，在坚信不是硬件问题的前提下，只能一遍一遍换驱动版本。刚开始用的最早的驱动版本是11.3，pytorch支持的另一个cuda版本10.2 nvidia官网不支持wind
GPU 之争：训练大模型的显卡规格大比拼
2024-04-22 17:07

科技互联人生的博客训练大模型有多烧钱？（含常用GPU规格比较）
使用tensorflow-gpu无法训练模型？ python tensorflow ubuntu
2021-08-09 15:02

回答 2 已采纳看你的运行结果是你的cuda版本过于低，gpu的性能没有完全利用，观察你的loss几乎没有变化，loss要下降趋势才是正常运行结果，调整一下超参数试试
多GPU数据并行训练的加速原理到底是什么？ tensorflow 深度学习神经网络
2021-02-18 11:11

回答 2 已采纳没错，本质是learning rate，且每个batch其实后面都要求平均梯度再反向传播，多gpu时每个batch的data多了，这时，每个batch的learning rate不变则每个da
Yolofastest_v2 使用GPU训练速度很快，识别速度很慢？ python 深度学习计算机视觉
2023-01-28 21:40

回答 2 已采纳跑的时候看下开下任务管理器，这里切换成cuda，然后运行看下这里的cuda和下面的现存有无上升，有上升说明有调用显卡。另外，你的模型有无预热？一般来说，显卡推理的前一两张速度会很慢，后面速度就飞起了。
AI大模型落地应用场景：LLM训练性能基准测试
2024-06-18 16:29

大飞攻城狮的博客训练性能在本文指机器（GPU、NPU或其他平台）在指定模型和输入数据的背景下，完成一次端到端训练所需要花费的时间，考虑到不同模型的训练数据量和训练轮次（epoch）差异，此处定义的性能是在完成一个batch训练所需...
使用mnist数据搭建的神经网络训练时GPU占用率剧烈波动人工智能机器学习神经网络
2023-04-08 12:36

回答 1 已采纳 mnist数据集太小了，所以gpu用不满，这是很正常的
YOLOv5使用GPU训练以后无法对目标图片进行识别 python 机器学习目标检测
2023-04-21 01:28

回答 2 已采纳 oom错误，显存不足，将imgs这个参数改小，你这8032的的图片没几张显卡跑的了的
CPU加载模型与GPU加载模型结果不同 bert keras 人工智能
2021-08-13 10:58

回答 1 已采纳对比加载进CPU和GPU的参数对比每一层的输出主要是看看参数读取问题还是模型前向传播问题
CPU vs GPU：不仅仅是一字之差
2024-02-02 10:19

OpenPie｜拓数派的博客在计算机科学领域，CPU 和 GPU 作为计算机的核心组件，虽然名字只有“一字之差”，但其结构和功能却大不相同。本文将介绍 CPU&GPU 的基本概念、主要区别、适用场景以及 GPU 加速在大模型与向量数据库领域的应用。
训练模型的时候显示GPU可使用内存不够，打开任务管理器查看内存是够用是什么情况？ python 人工智能深度学习
2021-07-22 09:48

回答 4 已采纳我的猜测，你可能有一块集成显卡，但没有禁用
算力与GPU卡入门解析|晚安是一只小猫
2024-06-14 17:26

晚安是一只小猫的博客小到我们每一次手机拍照、网络购物，大到国家层面的太空探索、医药研发，都离不开算力的支持。当前，算力已经成为和水、电、燃气一样的基础资源，渗透进各行各业中，日益成为数字经济核心生产力。据中国信通院测算，...
机器学习模型训练之GPU使用
2022-05-07 13:03

chong墩儿的博客免费GPU使用推荐
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月8日

悬赏问题

¥15 可任意设置即使长度的倒计时器电路设计
¥15 MusePose 部署安装问题，安装后无法启动
¥15 Psexec获得电脑system权限该怎么操作，有偿
¥50 python+flask实现流式api接口的问题
¥20 关于#vue.js#的问题：后端返回的代码如下，根据后端返回的数据在页面上重新展示
¥15 visual studio 社区版离线激活失败了
¥15 Flask应用部署到阿里云服务器失败，无法访问网页，问题出在哪里？
¥15 有什么好的直流步进减速电机42的厂家推荐，保持力矩达到0.3N.M
¥15 一道蓝桥杯的题，请问我错在哪里
¥15 关于#android问题，xposed模块找不到so