kaggle开了GPU但是GPU使用0％怎么回事，下面代码需要改吗，以调用GPU训练


import numpy as np
import random
from collections import deque
from tensorflow.keras import layers,models
import tensorflow as tf
from Job_Shop import Situation
from tensorflow.keras.optimizers import Adam
from Instance_Generator import Processing_time,A,D,M_num,Op_num,J,O_num,J_num
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号
'''
回放Memory处应该有点问题。需要改一下。
'''
class DQN:
    def __init__(self,):
        self.Hid_Size = 30
        # ------------Hidden layer=5   30 nodes each layer--------------
        model = models.Sequential()
        model.add(layers.Input(shape=(7,)))
        model.add(layers.Dense(self.Hid_Size, name='l1'))
        model.add(layers.Dense(self.Hid_Size, name='l2'))
        model.add(layers.Dense(self.Hid_Size, name='l3'))
        model.add(layers.Dense(self.Hid_Size, name='l4'))
        model.add(layers.Dense(self.Hid_Size, name='l5'))
        model.add(layers.Dense(6, name='l6'))
        model.compile(loss='mse',
                      optimizer=Adam(learning_rate=0.001))
        # # model.summary()
        self.model = model
        #------------Q-network Parameters-------------
        self.act_dim=[1,2,3,4,5,6]                        #神经网络的输出节点
        self.obs_n=[0,0,0,0,0,0,0]                            #神经网路的输入节点
        self.gama = 0.95  # γ经验折损率
        # self.lr = 0.001  # 学习率
        self.global_step = 0
        self.update_target_steps = 200  # 更新目标函数的步长
        self.target_model = self.model
        #-------------------Agent-------------------
        self.e_greedy=0.6
        self.e_greedy_decrement=0.0001
        self.L=2         #Number of training episodes L 训练集数!!!!40 
        #---------------Replay Buffer---------------
        self.buffer=deque(maxlen=2000)
        self.Batch_size=10       # Batch Size of Samples to perform gradient descent
    def replace_target(self):
        self.target_model.get_layer(name='l1').set_weights(self.model.get_layer(name='l1').get_weights())
        self.target_model.get_layer(name='l2').set_weights(self.model.get_layer(name='l2').get_weights())
        self.target_model.get_layer(name='l3').set_weights(self.model.get_layer(name='l3').get_weights())
        self.target_model.get_layer(name='l4').set_weights(self.model.get_layer(name='l4').get_weights())
        self.target_model.get_layer(name='l5').set_weights(self.model.get_layer(name='l5').get_weights())
        self.target_model.get_layer(name='l6').set_weights(self.model.get_layer(name='l6').get_weights())
    def replay(self):
        if self.global_step % self.update_target_steps == 0:
            self.replace_target()
        # replay the history and train the modelUC1.#回放历史并训练模型
        minibatch = random.sample(self.buffer, self.Batch_size)
        for state, action, reward, next_state, done in minibatch:
            target = reward
            if not done:
                k=self.target_model.predict(next_state)
                target = (reward + self.gama *
                          np.argmax(self.target_model.predict(next_state)))
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        self.global_step += 1
    def Select_action(self,obs):
        # obs=np.expand_dims(obs,0)
        if random.random()<self.e_greedy:
            act=random.randint(0,5)
        else:
            act=np.argmax(self.model.predict(obs))
        self.e_greedy = max(
            0.01, self.e_greedy - self.e_greedy_decrement)  # 随着训练逐步收敛，探索的程度慢慢降低
        return act
    def _append(self, exp):
        self.buffer.append(exp)
    def main(self,J_num, M_num, O_num, J, Processing_time, D, A):
        k = 0
        x=[]
        Total_tard=[]
        TR=[]
        for i in range(self.L):
            Total_reward = 0
            x.append(i+1)
            print('-----------------------开始第',i+1,'次训练------------------------------')
            obs=[0 for i in range(7)]
            obs = np.expand_dims(obs, 0)
            done=False
            Sit = Situation(J_num, M_num, O_num, J, Processing_time, D, A)
            for i in range(O_num):
                k+=1
                # print(obs)
                at=self.Select_action(obs)
                # print(at)
                if at==0:
                    at_trans=Sit.rule1()
                if at==1:
                    at_trans=Sit.rule2()
                if at==2:
                    at_trans=Sit.rule3()
                if at==3:
                    at_trans=Sit.rule4()
                if at==4:
                    at_trans=Sit.rule5()
                if at==5:
                    at_trans=Sit.rule6()
                # at_trans=self.act[at]
                print('这是第',i,'道工序>>','执行action:',at,' ','将工件',at_trans[0],'安排到机器',at_trans[1])
                Sit.scheduling(at_trans)
                obs_t=Sit.Features()
                if i==O_num-1:
                    done=True
                #obs = obs_t
                obs_t = np.expand_dims(obs_t, 0)
                # obs = np.expand_dims(obs, 0)
                # print(obs,obs_t)
                r_t = Sit.reward(obs[0][6],obs[0][5],obs_t[0][6],obs_t[0][5],obs[0][0],obs_t[0][0])
                self._append((obs,at,r_t,obs_t,done))
                if k>self.Batch_size:
                    # batch_obs, batch_action, batch_reward, batch_next_obs,done= self.sample()
                    self.replay()
                Total_reward+=r_t
                obs=obs_t
            total_tadiness=0
            Job=Sit.Jobs
            E=0
            K=[i for i in range(len(Job))]
            End=[]
            for Ji in range(len(Job)):
                End.append(max(Job[Ji].End))
                if max(Job[Ji].End)>D[Ji]:
                    total_tadiness+=abs(max(Job[Ji].End)-D[Ji])
            print('<<<<<<<<<-----------------total_tardiness总延迟:',total_tadiness,'------------------->>>>>>>>>>')
            Total_tard.append(total_tadiness)
            print('<<<<<<<<<-----------------reward奖励:',Total_reward,'------------------->>>>>>>>>>')
            TR.append(Total_reward)
            plt.plot(K,End,color='y') #绘制每个工件的结束时间，黄色
            plt.plot(K,D,color='r') #绘制每个工件的交货期，红色
            #plt.show() #显示绘制的图形
            plt.savefig("第%d次训练.png" % (i+1))
            plt.clf() #清楚当前绘画，以防下次迭代叠加到后续图形上
        plt.plot(x,Total_tard)
        plt.xlabel(u'训练步数', fontsize=14, color='r')# x,y坐标轴名称设置,可以同时设置标签的字体大小颜色等
        plt.ylabel(u'总延迟时间', fontsize=14, color='b')
        plt.title(u"DQN在每个训练步骤中获得的总延迟时间", fontsize=14, color='k') # 设置图形标题
        plt.savefig('总延迟.png')
        plt.show()
        return Total_reward
d=DQN()
d.main(J_num, M_num, O_num, J, Processing_time, D, A)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-05-20 19:19
关注
晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

可能存在以下几种原因导致GPU使用率为0%：

模型的batch_size太小，无法充分利用GPU资源，这个可以通过增大batch_size以及使用并行计算等方法来解决。

数据准备的过程瓶颈，导致模型训练过程无法充分利用GPU资源。这种情况可以通过优化数据读取的方式来解决，例如：使用tf.data等加速数据读取。

模型结构及训练过程存在的问题，导致模型训练过程无法充分利用GPU资源。这种情况可能需要结合模型结构和训练过程来进行分析和优化。

解决方案：

增加batch_size并使用并行计算可以提高GPU的利用率，同时可以优化数据读取的方式，比如使用tf.data等加速数据读取，从而提高GPU的利用率。

对模型结构和训练过程进行分析，可能需要结合实际情况对模型结构和训练过程进行优化。

可以尝试在训练过程中使用自适应学习率等算法，以及使用更加高效的优化器，比如Adam等，来提高GPU的利用率并加速训练过程。

代码修改：

由于给出的代码中并没有确定GPU是否被调用，因此代码可能需要根据具体情况进行修改。一般来说，在使用tensorflow时，可以通过设置环境变量TF_FORCE_GPU_ALLOW_GROWTH为True，或者使用tf.config.experimental.set_memory_growth方法来开启GPU使用。具体而言，在tensorflow.keras中可以使用以下代码来开启GPU的使用：

import tensorflow as tf physical_devices = tf.config.list_physical_devices('GPU') tf.config.experimental.set_memory_growth(physical_devices[0], True)

如果仍然存在问题，可以尝试使用GPU profiler来分析问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

跑yolo的时候gpu占用了为0 python 人工智能深度学习
2022-10-25 09:11

回答 2 已采纳显存沾满说明有调用，只不过瓶颈不在GPU，而是你的其他部分，也就是常说的木桶效应，比如你这个明显就是内存不足导致的。另外，很多人有个误解，说GPU使用率不高，是不是没调用，但是实际上这里显示的一般是平
Kaggle训练Yolov5模型 python 有问必答
2022-04-08 20:06

回答 2 已采纳指令输进去,类似于python train.py --.yaml --cfg .yaml --weights pretrained/yolov5s.pt --epoch 100 --batch-siz
kaggle平台不能删除已有的框架吗 tensorflow 机器学习自然语言处理
2022-10-29 13:00

回答 1 已采纳这种情况在后面打一个”Y“试试其实tensorflow2.0版本和1.0版本的相差很大，如果你用的是2.0版本的，但代码是1.0，可以在引入模块中加入以下语句import tensorflow.com
在kaggle中用GPU训练模型
2023-07-23 14:50

云梦之上的博客在kaggle中用其中notebook加上其自带的gpu来训练模型
采用kaggle训练yolov5口罩模型，出现Dataset not found问题 opencv 人工智能计算机视觉
2022-10-22 11:19

回答 1 已采纳
kaggle泰坦尼克 python 有问必答
2022-01-24 23:14

回答 5 已采纳你输出一下最终处理完的titanic，你看一下里面有没有survived字段或者输出一下列名看一下：titanic.columns
请问一下train.csv有什么作用？有了它我们还需要给数据集打标吗人工智能深度学习计算机视觉
2022-04-13 13:15

回答 1 已采纳一般来说，这个csv文件标记了训练集的数据，编号id，路径，标签的内容。标签的内容可能是训练主要关注的内容，或者告诉训练模型要如何训练。如果你用csv对应的数据集，就不需要给数据集标记了，如果你要更换
kaggle找不到GPU如何解决？
2023-06-17 15:16

cool-wangtongzhou的博客这里可以看到GPU和TPU的使用时长，kaggle上能够免费使用的GPU是30小时，TPU是20小时。一般来说，都是用不完的。在Accelerator里面就可以找到GPU了。验证完手机号码，就可以使用GPU了。科学上网一下，才能够看到隐藏...
kaggle现在是不是提交不了答案了？机器学习
2021-07-11 08:47

回答 1 已采纳之前遇到是因为网络不稳定，连上VPN就好了
CBIS-DDSM kaggle 资料处理 python 数据分析数据挖掘
2023-02-06 16:18

回答 3 已采纳 #复制文件函数 def copy_files(l,dd): for n in range(len(dd)): d=re.findall(r'/(.*)/', dd.loc[n,
在做kaggle中的titanic为什么报错呢？机器学习
2018-11-24 10:02

回答 3 已采纳该问题是由于sklearn中模块的迁移和更新导致的 **解决方法一**：不理会版本情况直接将 ``` from sklearn.model_selection import KFold
使用kaggle的GPU离线训练自己的模型
2022-02-12 19:53

智悦思舍的博客有时候为了得到更好的模型结果，你可能需要使用一个更大的batch-size去训练，但是自己的电脑gpu又带不动，那么这时候你就可以尝试去使用一些免费的线上训练网站了，下面我将介绍使用kaggle离线训练自己的神经网络...
kaggle CBIS-DDSM 依照breast density分类图片 python 数据挖掘机器学习
2023-03-23 16:48

回答 4 已采纳 import os import shutil import pandas as pd import re import cv2 #区分roi和cropped图片 def classify_img
python 调用gpu算力_自己的Python代码小霸王跑不起来？带你薅一波kaggle的算力羊毛...
2020-12-09 03:41

weixin_39840733的博客现如今，各大比赛平台都有NLP相关的比赛任务。做比赛也是一种快速提升NLP技术能力的方式。然而许多童鞋可能受限于计算资源...今天小编就来带大家薅一薅资本主义的羊毛，教你使用kaggle的GPU资源。1 登录kaggle选择S...
Kaggle平台上运行TensorFlow时GPU利用率为0
2022-02-19 22:45

甜面包兑啤酒的博客 ** 待解决 ** 今天在Kaggle上试一下TextCNN，涉及到TensorFlow。但是训练模型时发现GPU利用率为0，而且整个过程非常慢。隔壁的CPU都到顶了… 查了很多方法，说是和cuda版本不对应 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日

悬赏问题

¥20 找辅导初学者想实现一个项目没有方向
¥15 关于渗漏场的电场分布模拟
¥24 matlab怎么修改仿真初始时间
¥15 两分段线性回归模型分析阈值效应
¥15 前端和后端代码都没报错，但是点登录没反应的？
¥100 需要远程解决QSQLITE问题！
¥15 利用光场表达式画出初始光场强度分布图像等几个问题在这两个图片里
¥15 gozero求手把手教学，400一天
¥15 泥浆冲清水的泥浆分布
¥15 LASSO回归分析筛选关键基因，适合多大样本量？

kaggle开了GPU但是GPU使用0％怎么回事，下面代码需要改吗，以调用GPU训练

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新