八张卡为什么模型跑的还是很慢

一张卡和八张卡一样的速度
是不是因为数据集在硬盘上读取速度问题
多线程也调了
哪里需要更改


# --------------------------------------------------------
# OpenVQA
# Written by Yuhao Cui https://github.com/cuiyuhao1996
# --------------------------------------------------------

import numpy as np
import glob, json, re, en_vectors_web_lg
from openvqa.core.base_dataset import BaseDataSet
from openvqa.utils.ans_punct import prep_ans

class DataSet(BaseDataSet):
    def __init__(self, __C):
        super(DataSet, self).__init__()
        self.__C = __C

        # --------------------------
        # ---- Raw data loading ----
        # --------------------------

        # Loading all image paths
        frcn_feat_path_list = \
            glob.glob(__C.FEATS_PATH[__C.DATASET]['train'] + '/*.npz') + \
            glob.glob(__C.FEATS_PATH[__C.DATASET]['val'] + '/*.npz') + \
            glob.glob(__C.FEATS_PATH[__C.DATASET]['test'] + '/*.npz')

        # Loading question word list
        stat_ques_list = \
            json.load(open(__C.RAW_PATH[__C.DATASET]['train'], 'r'))['questions'] + \
            json.load(open(__C.RAW_PATH[__C.DATASET]['val'], 'r'))['questions'] + \
            json.load(open(__C.RAW_PATH[__C.DATASET]['test'], 'r'))['questions'] + \
            json.load(open(__C.RAW_PATH[__C.DATASET]['vg'], 'r'))['questions']

        # Loading answer word list
        # stat_ans_list = \
        #     json.load(open(__C.RAW_PATH[__C.DATASET]['train-anno'], 'r'))['annotations'] + \
        #     json.load(open(__C.RAW_PATH[__C.DATASET]['val-anno'], 'r'))['annotations']

        # Loading question and answer list
        self.ques_list = []
        self.ans_list = []

        split_list = __C.SPLIT[__C.RUN_MODE].split('+')
        for split in split_list:
            self.ques_list += json.load(open(__C.RAW_PATH[__C.DATASET][split], 'r'))['questions']
            if __C.RUN_MODE in ['train']:
                self.ans_list += json.load(open(__C.RAW_PATH[__C.DATASET][split + '-anno'], 'r'))['annotations']

        # Define run data size
        if __C.RUN_MODE in ['train']:
            self.data_size = self.ans_list.__len__()
        else:
            self.data_size = self.ques_list.__len__()

        print(' ========== Dataset size:', self.data_size)


        # ------------------------
        # ---- Data statistic ----
        # ------------------------

        # {image id} -> {image feature absolutely path}
        self.iid_to_frcn_feat_path = self.img_feat_path_load(frcn_feat_path_list)

        # {question id} -> {question}
        self.qid_to_ques = self.ques_load(self.ques_list)

        # Tokenize
        self.token_to_ix, self.pretrained_emb = self.tokenize(stat_ques_list, __C.USE_GLOVE)
        self.token_size = self.token_to_ix.__len__()
        print(' ========== Question token vocab size:', self.token_size)

        # Answers statistic
        self.ans_to_ix, self.ix_to_ans = self.ans_stat('openvqa/datasets/vqa/answer_dict.json')
        # self.ans_to_ix, self.ix_to_ans = self.ans_stat(stat_ans_list, ans_freq=8)
        self.ans_size = self.ans_to_ix.__len__()
        print(' ========== Answer token vocab size (occur more than {} times):'.format(8), self.ans_size)
        print('Finished!')
        print('')



    def img_feat_path_load(self, path_list):
        iid_to_path = {}

        for ix, path in enumerate(path_list):
            iid = str(int(path.split('/')[-1].split('_')[-1].split('.')[0]))
            # print(iid)
            iid_to_path[iid] = path

        return iid_to_path


    def ques_load(self, ques_list):
        qid_to_ques = {}

        for ques in ques_list:
            qid = str(ques['question_id'])
            qid_to_ques[qid] = ques

        return qid_to_ques


    def tokenize(self, stat_ques_list, use_glove):
        token_to_ix = {
            'PAD': 0,
            'UNK': 1,
            'CLS': 2,
        }

        spacy_tool = None
        pretrained_emb = []
        if use_glove:
            spacy_tool = en_vectors_web_lg.load()
            pretrained_emb.append(spacy_tool('PAD').vector)
            pretrained_emb.append(spacy_tool('UNK').vector)
            pretrained_emb.append(spacy_tool('CLS').vector)

        for ques in stat_ques_list:
            words = re.sub(
                r"([.,'!?\"()*#:;])",
                '',
                ques['question'].lower()
            ).replace('-', ' ').replace('/', ' ').split()

            for word in words:
                if word not in token_to_ix:
                    token_to_ix[word] = len(token_to_ix)
                    if use_glove:
                        pretrained_emb.append(spacy_tool(word).vector)

        pretrained_emb = np.array(pretrained_emb)

        return token_to_ix, pretrained_emb


    # def ans_stat(self, stat_ans_list, ans_freq):
    #     ans_to_ix = {}
    #     ix_to_ans = {}
    #     ans_freq_dict = {}
    #
    #     for ans in stat_ans_list:
    #         ans_proc = prep_ans(ans['multiple_choice_answer'])
    #         if ans_proc not in ans_freq_dict:
    #             ans_freq_dict[ans_proc] = 1
    #         else:
    #             ans_freq_dict[ans_proc] += 1
    #
    #     ans_freq_filter = ans_freq_dict.copy()
    #     for ans in ans_freq_dict:
    #         if ans_freq_dict[ans] <= ans_freq:
    #             ans_freq_filter.pop(ans)
    #
    #     for ans in ans_freq_filter:
    #         ix_to_ans[ans_to_ix.__len__()] = ans
    #         ans_to_ix[ans] = ans_to_ix.__len__()
    #
    #     return ans_to_ix, ix_to_ans

    def ans_stat(self, json_file):
        ans_to_ix, ix_to_ans = json.load(open(json_file, 'r'))

        return ans_to_ix, ix_to_ans



    # ----------------------------------------------
    # ---- Real-Time Processing Implementations ----
    # ----------------------------------------------

    def load_ques_ans(self, idx):
        if self.__C.RUN_MODE in ['train']:
            ans = self.ans_list[idx]
            ques = self.qid_to_ques[str(ans['question_id'])]
            iid = str(ans['image_id'])

            # Process question
            ques_ix_iter = self.proc_ques(ques, self.token_to_ix, max_token=14)

            # Process answer
            ans_iter = self.proc_ans(ans, self.ans_to_ix)

            return ques_ix_iter, ans_iter, iid

        else:
            ques = self.ques_list[idx]
            iid = str(ques['image_id'])

            ques_ix_iter = self.proc_ques(ques, self.token_to_ix, max_token=14)

            return ques_ix_iter, np.zeros(1), iid


    def load_img_feats(self, idx, iid):
        frcn_feat = np.load(self.iid_to_frcn_feat_path[iid])
        frcn_feat_x = frcn_feat['x'].transpose((1, 0))
        frcn_feat_iter = self.proc_img_feat(frcn_feat_x, img_feat_pad_size=self.__C.FEAT_SIZE['vqa']['FRCN_FEAT_SIZE'][0])

        bbox_feat_iter = self.proc_img_feat(
            self.proc_bbox_feat(
                frcn_feat['bbox'],
                (frcn_feat['image_h'], frcn_feat['image_w'])
            ),
            img_feat_pad_size=self.__C.FEAT_SIZE['vqa']['BBOX_FEAT_SIZE'][0]
        )
        grid_feat_iter = np.zeros(1)

        return frcn_feat_iter, grid_feat_iter, bbox_feat_iter



    # ------------------------------------
    # ---- Real-Time Processing Utils ----
    # ------------------------------------

    def proc_img_feat(self, img_feat, img_feat_pad_size):
        if img_feat.shape[0] > img_feat_pad_size:
            img_feat = img_feat[:img_feat_pad_size]

        img_feat = np.pad(
            img_feat,
            ((0, img_feat_pad_size - img_feat.shape[0]), (0, 0)),
            mode='constant',
            constant_values=0
        )

        return img_feat


    def proc_bbox_feat(self, bbox, img_shape):
        if self.__C.BBOX_NORMALIZE:
            bbox_nm = np.zeros((bbox.shape[0], 4), dtype=np.float32)

            bbox_nm[:, 0] = bbox[:, 0] / float(img_shape[1])
            bbox_nm[:, 1] = bbox[:, 1] / float(img_shape[0])
            bbox_nm[:, 2] = bbox[:, 2] / float(img_shape[1])
            bbox_nm[:, 3] = bbox[:, 3] / float(img_shape[0])
            return bbox_nm
        # bbox_feat[:, 4] = (bbox[:, 2] - bbox[:, 0]) * (bbox[:, 3] - bbox[:, 1]) / float(img_shape[0] * img_shape[1])

        return bbox


    def proc_ques(self, ques, token_to_ix, max_token):
        ques_ix = np.zeros(max_token, np.int64)

        words = re.sub(
            r"([.,'!?\"()*#:;])",
            '',
            ques['question'].lower()
        ).replace('-', ' ').replace('/', ' ').split()

        for ix, word in enumerate(words):
            if word in token_to_ix:
                ques_ix[ix] = token_to_ix[word]
            else:
                ques_ix[ix] = token_to_ix['UNK']

            if ix + 1 == max_token:
                break

        return ques_ix


    def get_score(self, occur):
        if occur == 0:
            return .0
        elif occur == 1:
            return .3
        elif occur == 2:
            return .6
        elif occur == 3:
            return .9
        else:
            return 1.


    def proc_ans(self, ans, ans_to_ix):
        ans_score = np.zeros(ans_to_ix.__len__(), np.float32)
        ans_prob_dict = {}

        for ans_ in ans['answers']:
            ans_proc = prep_ans(ans_['answer'])
            if ans_proc not in ans_prob_dict:
                ans_prob_dict[ans_proc] = 1
            else:
                ans_prob_dict[ans_proc] += 1

        if self.__C.LOSS_FUNC in ['kld']:
            for ans_ in ans_prob_dict:
                if ans_ in ans_to_ix:
                    ans_score[ans_to_ix[ans_]] = ans_prob_dict[ans_] / 10.
        else:
            for ans_ in ans_prob_dict:
                if ans_ in ans_to_ix:
                    ans_score[ans_to_ix[ans_]] = self.get_score(ans_prob_dict[ans_])

        return ans_score

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kwan的解忧杂货铺@新空间代码工作室 2024-03-16 16:31
关注
Illusion_WH 下午好🌅🌅🌅
本答案参考ChatGPT-3.5

问题：八张卡为什么模型跑的还是很慢？

解决方案：针对模型在八张卡上运行速度慢的问题，有以下几点可以尝试进行优化：

数据集读取速度问题：检查数据集在硬盘上的读取速度是否较慢。可以尝试将数据集加载到内存中，或者使用更快的存储设备（如SSD）来加快数据集的读取速度。

多线程设置：确保已经进行了多线程的设置来提高模型的并行处理能力。多线程可以充分利用CPU的多核心来加速模型的运行。

模型架构调整：根据具体情况，可以对模型架构进行调整来提高运行速度。例如，可以使用更轻量级的模型，减少网络参数的数量，或者通过模型剪枝等技术减少模型的计算量。

硬件资源配置：确保机器上的硬件资源足够充足，包括八张卡的显存、CPU和内存等。如果硬件资源有限，也可以考虑使用更高性能的硬件设备来提高模型的运行速度。

模型编程优化：对模型代码进行优化，可以提升模型的运行效率。例如，可以使用批量操作来减少计算量，或者使用更高效的算法和数据结构来优化模型的计算过程。

并行计算优化：对模型的并行计算过程进行优化，可以提高模型在多张卡上的运行速度。可以尝试使用分布式训练框架，如TensorFlow分布式训练和PyTorch分布式训练，来充分利用多个计算资源。

模型参数调优：根据模型的使用场景和需求，可以对模型参数进行调优来提高运行速度。可以通过调整学习率、正则化参数等方式来改善模型的训练效果和速度。

其他优化策略：根据具体情况，还可以尝试其他优化策略，如模型量化、模型蒸馏等方法来提高模型的运行速度。

以上是针对模型在八张卡上运行速度慢的一些解决方案，请根据实际情况选择合适的方法进行优化。

# 修改后的代码，用于加速模型运行 # ... # 数据集加载优化 # 将数据集加载到内存中 data = np.load('path/to/data.npz') images = data['images'] labels = data['labels'] # 多线程设置 import threading def process_data(data): # 处理数据的函数 pass def run_model(): thread_list = [] num_threads = 8 for i in range(num_threads): t = threading.Thread(target=process_data, args=(data,)) t.start() thread_list.append(t) for t in thread_list: t.join() # 模型架构调整 # 使用轻量级模型，减少网络参数数量 model = LightweightModel() # 硬件资源配置 # 确保机器上的硬件资源充足，包括显存、CPU和内存等 # 模型编程优化 # 使用批量操作来减少计算量 # 使用高效的算法和数据结构来优化计算过程 # 并行计算优化 # 使用分布式训练框架来充分利用多个计算资源 # 模型参数调优 # 调整学习率、正则化参数等来改善训练效果和速度 # 其他优化策略 # 使用模型量化、模型蒸馏等方法来提高运行速度

请根据实际情况选择合适的优化策略进行调整，并根据修改后的代码来进行代码实现。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Android获取第二张卡手机号码 android 有问必答
2022-12-13 23:19

回答 2 已采纳有个隐藏方法 getLine1Number(int subId)，需要反射调用
uniapp如何实现拨打号码时默认使用副卡拨号 android html5 javascript
2022-02-18 16:57

回答 6 已采纳打电话的话,这没法指定吧,一般来说是用户点击功能,然后到系统拨打电话的页面,至于用哪个卡拨打是由用户决定,如果由软件决定是不是不太合适
C#问题，如何实现15693多卡重复查询，目前状态是，程序运行读卡器查询一次卡，然后就结束。想要实现一直查询的状态。 c# wpf
2022-06-02 17:08

回答 1 已采纳读卡器，读写是会有响应时间的，特别是当查询到数据时，对数据查询或者更新时，尽量异步更新或者开线程更新，这样不会阻塞设备读取的线程在定时器或者 while 中，增加 Thread.Sleep(1
为什么说大模型训练很难？聊聊预训练的一些经验
2024-07-30 10:13

python_知世的博客自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switch ...
关于多卡训练Bart的问题 pytorch 深度学习自然语言处理
2022-07-26 22:02

回答 1 已采纳通常的多卡训练是指每个显卡上都加载一样的模型，然后把 batch 平分到多卡上计算梯度后汇总，你报错在 gpu2，基本上断定多卡没问题，而是显存不够应对 BART 的大小。如果你要拆分模型以减轻显存消
go 串口通信下发指令设备无反应 arm golang linux 有问必答
2021-12-09 07:41

回答 1 已采纳你删四张的时候明个删除命令之间加个延时比如20ms
java刚刚入门，这个真的不会 java 有问必答
2022-04-04 17:21

回答 2 已采纳 import java.io.Serializable; import java.util.HashMap; import java.util.Map; import java.util.Scann
AI大模型落地应用场景：LLM训练性能基准测试
2024-06-18 16:29

大飞攻城狮的博客而端到端通常是指完成一个AI模型单步训练的过程。也就是说，本文所讨论的性能的衡量和性能的优化，都是站在模型角度上。单batch总时间 = 数据加载时间 + 模型前反向时间 + 优化器时间 + 模型后处理时间 + 通信时间 +...
rc522如何读叠卡 51单片机
2022-09-28 11:33

回答 1 已采纳没有办法，别想了理论上，所有无源的卡都需要你的读卡器电磁波供电，那么能驱动多少张卡同时工作本身就是受功率限制的，多了根本带不动就算带动了，多个卡同时处于读卡区内，信号相互干扰，可能只能读出其中一个卡，
手机收不到SIM900A模块的短信，代码如下其他有问必答
2021-04-27 16:04

回答 2 已采纳 SIM900A模块不支持电信卡，你看下你是什么卡
sql取一列中不重复值然后判断与之相关数据方法 sql
2018-12-12 06:01

回答 6 已采纳废话不多说，先上代码： ``` select A.*, decode(A.judge, 0, (decode(A.T
如何从零开始训练大模型？（附AGI大模型路线图）
2024-06-04 21:45

AGI大模型资料分享员的博客尽管可以使用一些技巧方法来构造一些看起来特别平滑的指标来反对大模型涌现这个词汇，但是不可否认的事实是，在不同的尺寸变化或者数据量、计算量变化之后，人们可以非常明显地感知到大模型表现的巨大差异，这就是一...
大模型训练烧钱还能烧多久
2024-08-08 12:00

AI小白熊的博客情形 1:假设 2 家能够跟进投入，对应等效 H100 卡销量~1500 万张...更关键的是2026年，当每家训练模型（对应训练GPT7.0级别模型），买卡投入达到~1000亿级别时，如果还没有足够的现金回流，那么有几家公司能跟进投入。
大模型训练太难了！
2024-08-09 09:00

AI小白熊的博客有人说大模型嘛，简单，给我卡就行，等到老板真给你买来了1000张卡你就知道有多难了，老板说，小王，卡买来了，三个月给我搞出来。然后你发现，就算有人把正确的代码，数据，参数全告诉你，你也就够完整跑一次把它...
低成本攒机跑深度学习AI
2023-04-13 00:11

哲萌的博客前言一、入手GPU 二、主板建议 1.AMD系列 2.Intel系列 3.X99系列三、电源和机箱建议四、安装系统以及cuda 五、windows端安装与操作总结前言随着人工智能的不断发展，深度学习这门技术也越来越重要，AI绘图、...
大模型入门（四）—— 基于peft 微调 LLaMa模型
2024-06-11 14:50

小城哇哇的博客 llama-7b模型大小大约27G，本文在单张/两张 16G V100上基于hugging face的peft库实现了llama-7b的微调。
从零到精通：详解如何训练大模型的完整指南，非常详细，收藏我这一篇就够了
2024-08-21 22:06

拥抱AGI的博客尽管可以使用一些技巧方法来构造一些看起来特别平滑的指标来反对大模型涌现这个词汇，但是不可否认的事实是，在不同的尺寸变化或者数据量、计算量变化之后，人们可以非常明显地感知到大模型表现的巨大差异，这就是一...
如何从零开始训练大模型？（非常详细）零基础入门到精通，收藏这一篇就够了_训练大模型的前置知识
2024-06-25 13:44

功城师的博客尽管可以使用一些技巧方法来构造一些看起来特别平滑的指标来反对大模型涌现这个词汇，但是不可否认的事实是，在不同的尺寸变化或者数据量、计算量变化之后，人们可以非常明显地感知到大模型表现的巨大差异，这就是一...
如何从零开始，训练AI大模型？零基础入门到精通，收藏这一篇就够了
2024-09-03 19:43

网络安全大白的博客本文就为大家总结了大模型训练各阶段的最新技术方法，希望对大家有所帮助。1 背景根据scaling law，模型越大，高质量数据越多，效果越好。但还有一个很直观的情况，随着预训练样本的质量不断提升，训练手段的优化。...
为什么 AI 模型的计算成本如此之高？
2024-04-09 09:19

Meta.Qing的博客正如我们上面看到的，GPT-3 推理在 A100 上大约需要 1 秒，1,000 个代币的原始计算成本在 0.0002 美元到 0.0014 美元之间（相比之下，OpenAI 的定价为 0.002 美元/1000 个代币）。幸运的是，当今最流行的模型大多是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月16日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

八张卡为什么模型跑的还是很慢

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新