kaggle开了GPU但是GPU使用0%怎么回事，下面代码需要改吗，以调用GPU训练

kaggle开了GPU但是GPU使用0%怎么回事


import numpy as np
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "-1" #设置环境变量，以便在运行时仅使用CPU，而不是GPU
import random
from collections import deque
from tensorflow.keras import layers,models
import tensorflow as tf
from Job_Shop import Situation
from tensorflow.keras.optimizers import Adam
from Instance_Generator import Processing_time,A,D,M_num,Op_num,J,O_num,J_num
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号
'''
回放Memory处应该有点问题。需要改一下。
'''
class DQN:
    def __init__(self,):
        self.Hid_Size = 30
        # ------------Hidden layer=5   30 nodes each layer--------------
        model = models.Sequential()
        model.add(layers.Input(shape=(7,)))
        model.add(layers.Dense(self.Hid_Size, name='l1'))
        model.add(layers.Dense(self.Hid_Size, name='l2'))
        model.add(layers.Dense(self.Hid_Size, name='l3'))
        model.add(layers.Dense(self.Hid_Size, name='l4'))
        model.add(layers.Dense(self.Hid_Size, name='l5'))
        model.add(layers.Dense(6, name='l6'))
        model.compile(loss='mse',
                      optimizer=Adam(learning_rate=0.001))
        # # model.summary()
        self.model = model
        #------------Q-network Parameters-------------
        self.act_dim=[1,2,3,4,5,6]                        #神经网络的输出节点
        self.obs_n=[0,0,0,0,0,0,0]                            #神经网路的输入节点
        self.gama = 0.95  # γ经验折损率
        # self.lr = 0.001  # 学习率
        self.global_step = 0
        self.update_target_steps = 200  # 更新目标函数的步长
        self.target_model = self.model
        #-------------------Agent-------------------
        self.e_greedy=0.6
        self.e_greedy_decrement=0.0001
        self.L=2         #Number of training episodes L 训练集数!!!!40 
        #---------------Replay Buffer---------------
        self.buffer=deque(maxlen=2000)
        self.Batch_size=10       # Batch Size of Samples to perform gradient descent
    def replace_target(self):
        self.target_model.get_layer(name='l1').set_weights(self.model.get_layer(name='l1').get_weights())
        self.target_model.get_layer(name='l2').set_weights(self.model.get_layer(name='l2').get_weights())
        self.target_model.get_layer(name='l3').set_weights(self.model.get_layer(name='l3').get_weights())
        self.target_model.get_layer(name='l4').set_weights(self.model.get_layer(name='l4').get_weights())
        self.target_model.get_layer(name='l5').set_weights(self.model.get_layer(name='l5').get_weights())
        self.target_model.get_layer(name='l6').set_weights(self.model.get_layer(name='l6').get_weights())
    def replay(self):
        if self.global_step % self.update_target_steps == 0:
            self.replace_target()
        # replay the history and train the modelUC1.#回放历史并训练模型
        minibatch = random.sample(self.buffer, self.Batch_size)
        for state, action, reward, next_state, done in minibatch:
            target = reward
            if not done:
                k=self.target_model.predict(next_state)
                target = (reward + self.gama *
                          np.argmax(self.target_model.predict(next_state)))
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        self.global_step += 1
    def Select_action(self,obs):
        # obs=np.expand_dims(obs,0)
        if random.random()<self.e_greedy:
            act=random.randint(0,5)
        else:
            act=np.argmax(self.model.predict(obs))
        self.e_greedy = max(
            0.01, self.e_greedy - self.e_greedy_decrement)  # 随着训练逐步收敛，探索的程度慢慢降低
        return act
    def _append(self, exp):
        self.buffer.append(exp)
    def main(self,J_num, M_num, O_num, J, Processing_time, D, A):
        k = 0
        x=[]
        Total_tard=[]
        TR=[]
        for i in range(self.L):
            Total_reward = 0
            x.append(i+1)
            print('-----------------------开始第',i+1,'次训练------------------------------')
            obs=[0 for i in range(7)]
            obs = np.expand_dims(obs, 0)
            done=False
            Sit = Situation(J_num, M_num, O_num, J, Processing_time, D, A)
            for i in range(O_num):
                k+=1
                # print(obs)
                at=self.Select_action(obs)
                # print(at)
                if at==0:
                    at_trans=Sit.rule1()
                if at==1:
                    at_trans=Sit.rule2()
                if at==2:
                    at_trans=Sit.rule3()
                if at==3:
                    at_trans=Sit.rule4()
                if at==4:
                    at_trans=Sit.rule5()
                if at==5:
                    at_trans=Sit.rule6()
                # at_trans=self.act[at]
                print('这是第',i,'道工序>>','执行action:',at,' ','将工件',at_trans[0],'安排到机器',at_trans[1])
                Sit.scheduling(at_trans)
                obs_t=Sit.Features()
                if i==O_num-1:
                    done=True
                #obs = obs_t
                obs_t = np.expand_dims(obs_t, 0)
                # obs = np.expand_dims(obs, 0)
                # print(obs,obs_t)
                r_t = Sit.reward(obs[0][6],obs[0][5],obs_t[0][6],obs_t[0][5],obs[0][0],obs_t[0][0])
                self._append((obs,at,r_t,obs_t,done))
                if k>self.Batch_size:
                    # batch_obs, batch_action, batch_reward, batch_next_obs,done= self.sample()
                    self.replay()
                Total_reward+=r_t
                obs=obs_t
            total_tadiness=0
            Job=Sit.Jobs
            E=0
            K=[i for i in range(len(Job))]
            End=[]
            for Ji in range(len(Job)):
                End.append(max(Job[Ji].End))
                if max(Job[Ji].End)>D[Ji]:
                    total_tadiness+=abs(max(Job[Ji].End)-D[Ji])
            print('<<<<<<<<<-----------------total_tardiness总延迟:',total_tadiness,'------------------->>>>>>>>>>')
            Total_tard.append(total_tadiness)
            print('<<<<<<<<<-----------------reward奖励:',Total_reward,'------------------->>>>>>>>>>')
            TR.append(Total_reward)
            plt.plot(K,End,color='y') #绘制每个工件的结束时间，黄色
            plt.plot(K,D,color='r') #绘制每个工件的交货期，红色
            #plt.show() #显示绘制的图形
            plt.savefig("第%d次训练.png" % (i+1))
            plt.clf() #清楚当前绘画，以防下次迭代叠加到后续图形上
        plt.plot(x,Total_tard)
        plt.xlabel(u'训练步数', fontsize=14, color='r')# x,y坐标轴名称设置,可以同时设置标签的字体大小颜色等
        plt.ylabel(u'总延迟时间', fontsize=14, color='b')
        plt.title(u"DQN在每个训练步骤中获得的总延迟时间", fontsize=14, color='k') # 设置图形标题
        plt.savefig('总延迟.png')
        plt.show()
        return Total_reward
d=DQN()
d.main(J_num, M_num, O_num, J, Processing_time, D, A)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-20 18:53
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【您想要解决的问题】：您提问的目的是解决在Kaggle平台上开启了GPU资源，但是GPU使用率始终为0%的问题，并且希望知道是否需要修改现有的代码以确保能够利用GPU进行训练。

【问题出现原因】：根据您提供的代码和描述，问题出现的原因可能是由于在代码中设置了环境变量os.environ["CUDA_VISIBLE_DEVICES"] = "-1"，这会导致程序不使用任何GPU设备，而只使用CPU。此外，代码中没有明确指定使用GPU版本的TensorFlow，这也可能是导致GPU未被使用的原因之一。

【问题解决方案】：为了解决这个问题，您可以采取以下步骤：

移除或修改环境变量设置：将os.environ["CUDA_VISIBLE_DEVICES"] = "-1"这一行注释掉或删除，以允许程序看到并使用GPU。

确保使用GPU版本的TensorFlow：如果您还没有安装GPU版本的TensorFlow，您需要安装它。可以通过运行pip install tensorflow-gpu来进行安装。

检查Kaggle Kernel设置：确保您的Kaggle Kernel设置中已经选择了使用GPU的选项。

检查代码中是否有其他GPU使用限制：检查代码中是否有其他地方限制了GPU的使用。

【提供代码】：以下是修改后的代码片段，移除了环境变量的设置：

import numpy as np import random from collections import deque from tensorflow.keras import layers, models import tensorflow as tf # ... 省略其他导入和代码 ... # 注释掉或删除以下行，以允许使用GPU # os.environ["CUDA_VISIBLE_DEVICES"] = "-1" # ... 省略其他代码 ...

【代码运行方式】：在修改代码后，您需要在Kaggle Kernel中运行它。确保您的Kernel设置为使用GPU资源。

【代码预期运行结果】：如果一切设置正确，您的代码现在应该能够利用GPU进行训练，GPU使用率不再是0%。

【推荐相关链接】：

TensorFlow GPU安装指南
Kaggle Kernel设置GPU
TensorFlow GPU使用常见问题
CUDA环境变量设置
解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

跑yolo的时候gpu占用了为0 python 人工智能深度学习
2022-10-25 09:11

回答 2 已采纳显存沾满说明有调用，只不过瓶颈不在GPU，而是你的其他部分，也就是常说的木桶效应，比如你这个明显就是内存不足导致的。另外，很多人有个误解，说GPU使用率不高，是不是没调用，但是实际上这里显示的一般是平
Kaggle训练Yolov5模型 python 有问必答
2022-04-08 20:06

回答 2 已采纳指令输进去,类似于python train.py --.yaml --cfg .yaml --weights pretrained/yolov5s.pt --epoch 100 --batch-siz
kaggle平台不能删除已有的框架吗 tensorflow 机器学习自然语言处理
2022-10-29 13:00

回答 1 已采纳这种情况在后面打一个”Y“试试其实tensorflow2.0版本和1.0版本的相差很大，如果你用的是2.0版本的，但代码是1.0，可以在引入模块中加入以下语句import tensorflow.com
在kaggle中用GPU训练模型
2023-07-23 14:50

云梦之上的博客在kaggle中用其中notebook加上其自带的gpu来训练模型
采用kaggle训练yolov5口罩模型，出现Dataset not found问题 opencv 人工智能计算机视觉
2022-10-22 11:19

回答 1 已采纳
kaggle泰坦尼克 python 有问必答
2022-01-24 23:14

回答 5 已采纳你输出一下最终处理完的titanic，你看一下里面有没有survived字段或者输出一下列名看一下：titanic.columns
请问一下train.csv有什么作用？有了它我们还需要给数据集打标吗人工智能深度学习计算机视觉
2022-04-13 13:15

回答 1 已采纳一般来说，这个csv文件标记了训练集的数据，编号id，路径，标签的内容。标签的内容可能是训练主要关注的内容，或者告诉训练模型要如何训练。如果你用csv对应的数据集，就不需要给数据集标记了，如果你要更换
kaggle找不到GPU如何解决？
2023-06-17 15:16

cool-wangtongzhou的博客这里可以看到GPU和TPU的使用时长，kaggle上能够免费使用的GPU是30小时，TPU是20小时。一般来说，都是用不完的。在Accelerator里面就可以找到GPU了。验证完手机号码，就可以使用GPU了。科学上网一下，才能够看到隐藏...
kaggle现在是不是提交不了答案了？机器学习
2021-07-11 08:47

回答 1 已采纳之前遇到是因为网络不稳定，连上VPN就好了
CBIS-DDSM kaggle 资料处理 python 数据分析数据挖掘
2023-02-06 16:18

回答 3 已采纳 #复制文件函数 def copy_files(l,dd): for n in range(len(dd)): d=re.findall(r'/(.*)/', dd.loc[n,
在做kaggle中的titanic为什么报错呢？机器学习
2018-11-24 10:02

回答 3 已采纳该问题是由于sklearn中模块的迁移和更新导致的 **解决方法一**：不理会版本情况直接将 ``` from sklearn.model_selection import KFold
使用kaggle的GPU离线训练自己的模型
2022-02-12 19:53

智悦思舍的博客有时候为了得到更好的模型结果，你可能需要使用一个更大的batch-size去训练，但是自己的电脑gpu又带不动，那么这时候你就可以尝试去使用一些免费的线上训练网站了，下面我将介绍使用kaggle离线训练自己的神经网络...
kaggle CBIS-DDSM 依照breast density分类图片 python 数据挖掘机器学习
2023-03-23 16:48

回答 4 已采纳 import os import shutil import pandas as pd import re import cv2 #区分roi和cropped图片 def classify_img
python 调用gpu算力_自己的Python代码小霸王跑不起来？带你薅一波kaggle的算力羊毛...
2020-12-09 03:41

weixin_39840733的博客现如今，各大比赛平台都有NLP相关的比赛任务。做比赛也是一种快速提升NLP技术能力的方式。然而许多童鞋可能受限于计算资源...今天小编就来带大家薅一薅资本主义的羊毛，教你使用kaggle的GPU资源。1 登录kaggle选择S...
Kaggle平台上运行TensorFlow时GPU利用率为0
2022-02-19 22:45

甜面包兑啤酒的博客 ** 待解决 ** 今天在Kaggle上试一下TextCNN，涉及到TensorFlow。但是训练模型时发现GPU利用率为0，而且整个过程非常慢。隔壁的CPU都到顶了… 查了很多方法，说是和cuda版本不对应 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日

悬赏问题

¥20 找辅导初学者想实现一个项目没有方向
¥15 关于渗漏场的电场分布模拟
¥24 matlab怎么修改仿真初始时间
¥15 两分段线性回归模型分析阈值效应
¥15 前端和后端代码都没报错，但是点登录没反应的？
¥100 需要远程解决QSQLITE问题！
¥15 利用光场表达式画出初始光场强度分布图像等几个问题在这两个图片里
¥15 gozero求手把手教学，400一天
¥15 泥浆冲清水的泥浆分布
¥15 LASSO回归分析筛选关键基因，适合多大样本量？

kaggle开了GPU但是GPU使用0%怎么回事，下面代码需要改吗，以调用GPU训练

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新