需要更快的方法来列出项目中的所有数据集/表

I am creating a utility that needs to be aware of all the datasets/tables that exist in my BigQuery project. My current code for getting this information is as follows (using Go API):

func populateExistingTableMap(service *bigquery.Service, cloudCtx context.Context, projectId string) (map[string]map[string]bool, error) {
    tableMap := map[string]map[string]bool{}

    call := service.Datasets.List(projectId)
    //call.Fields("datasets/datasetReference")

    if err := call.Pages(cloudCtx, func(page *bigquery.DatasetList) error {
        for _, v := range page.Datasets {

            if tableMap[v.DatasetReference.DatasetId] == nil {
                tableMap[v.DatasetReference.DatasetId] = map[string]bool{}
            }

            table_call := service.Tables.List(projectId, v.DatasetReference.DatasetId)
            //table_call.Fields("tables/tableReference")

            if err := table_call.Pages(cloudCtx, func(page *bigquery.TableList) error {
                for _, t := range page.Tables {
                    tableMap[v.DatasetReference.DatasetId][t.TableReference.TableId] = true
                }
                return nil 
            }); err != nil {
                return errors.New("Error Parsing Table")
            }
        }
        return nil 
    }); err != nil {
        return tableMap, err
    }

    return tableMap, nil
}

For a project with about 5000 datasets, each with up to 10 tables, this code takes almost 15 minutes to return. Is there a faster way to iterate through the names of all existing datasets/tables? I have tried using the Fields method to return only the fields I need (you can see those lines commented out above), but that results in only 50 (exactly 50) of my datasets being returned.

Any ideas?

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

dongyuan9892 2016-08-12 15:33

关注

Here is an updated version of my code, with concurrency, that reduced the processing time from about 15 minutes to 3 minutes.

func populateExistingTableMap(service *bigquery.Service, cloudCtx context.Context, projectId string) (map[string]map[string]bool, error) {
    tableMap = map[string]map[string]bool{}

    call := service.Datasets.List(projectId)
    //call.Fields("datasets/datasetReference")

    if err := call.Pages(cloudCtx, func(page *bigquery.DatasetList) error {
        var wg sync.WaitGroup
        wg.Add(len(page.Datasets))
        for _, v := range page.Datasets {
            if tableMap[v.DatasetReference.DatasetId] == nil {
                tableMap[v.DatasetReference.DatasetId] = map[string]bool{}
            }

            go func(service *bigquery.Service, datasetID string, projectId string) {
                defer wg.Done()
                table_call := service.Tables.List(projectId, datasetID)
                //table_call.Fields("tables/tableReference")
                if err := table_call.Pages(cloudCtx, func(page *bigquery.TableList) error {
                    for _, t := range page.Tables {
                        tableMap[datasetID][t.TableReference.TableId] = true
                    }
                    return nil // NOTE: returning a non-nil error stops pagination.
                }); err != nil {
                    // TODO: Handle error.
                    fmt.Println(err)
                }
            }(service, v.DatasetReference.DatasetId, projectId)
        }

        wg.Wait()
        return nil // NOTE: returning a non-nil error stops pagination.
    }); err != nil {
        return tableMap, err
        // TODO: Handle error.
    }

    return tableMap, nil
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

需要更快的方法来列出项目中的所有数据集/表
2016-08-11 21:34

回答 1 已采纳 Here is an updated version of my code, with concurrency, that reduced the processing time from abo
springboot项目，查询classTop500PressClean表中数据，只能查找出一列数据？ mysql spring boot
2023-01-19 22:21

回答 1 已采纳应该是sql map 解析时float 类型解析失败，可以参考一下 select 语句里面直接返回model的resultmap 类型
列出所有项目并突出显示给定类别中的项目 php
2019-04-09 09:20

回答 1 已采纳 You can add a method in items model to check whether is item category equals to that category or n
mysql删除表中的一列数据_在数据表中添加或删除一列
2021-02-02 06:04

weixin_35969257的博客注意:我们希望能够尽快以你的语言为你提供...Access 提供了多种在数据表中添加或删除列的方法。你可以使用数据表视图来添加或删除列，并设置这些列的数据类型。此外，你还可以通过任务窗格添加字段，或者打开数...
如何在Matlab挑出一组数据中所有不连续的数 matlab 数据结构有问必答
2022-03-17 15:22

回答 2 已采纳先要获取里面连续的段，然后获取里面的小于1~10的 clc;clear A = [1:2, 1:20, 5:8, 11:20]; c1 = 1; arrset = cell(0,0); while(
使用DBeaver想在表中导入excel的数据只能导入列 mysql
2022-09-24 23:23

回答 3 已采纳字符集不匹配，'\xE5\xBC\xA0\xE9\x80\x9A'是UTF8字符集的"张通" ,所以至少你表的这个字段得是UTF8字符集的
从csv数据表中提取偶数行、奇数列的数据 python 有问必答
2022-03-21 11:21

回答 2 已采纳 import pandas as pd df = pd.read_csv(filename)print(df.iloc[::2, 1::2])
干货| 8种寻找数据集的方法
2019-01-23 20:49

SophiaCV的博客就目前来看，找到一个特定的数据集来解决各种机器学习问题，甚至进行实验还是比较困难的。本文作者Will Badr便列举了八大机器学习数据集。不仅包含用于实验的大型数据集，还附带对数据集的描述以及使用示例。有...
sql server 表中插入一列数据 sqlserver 数据库
2021-11-29 19:24

回答 2 已采纳 update 学生表 set 年龄 = 【你上边截图中的 sql select - from 中间的部分】这样就可以了
如何给表中单独新增一列数据 mysql sql
2023-02-06 17:21

回答 3 已采纳 ALTER TABLE student ADD COLUMN class varchar(255) NULL AFTER score; 然后可以使用update student a set a.
pandas如何把一个csv中的所有数据合并到一列 python 数据挖掘
2019-04-27 15:51

回答 1 已采纳 import numpy as np newarr = arr.flatten()
sklearn基础篇（三）-- 鸢尾花(iris)数据集分析和分类
2022-10-28 08:00

长路漫漫2021的博客本文是基于《Python机器学习基础教程》第一章学习的总结，主要是基于iris数据集进行探索数据分析和不同分类模型的对比，从而熟悉使用sklearn的模型进行机器学习。
如果未在另一个表中列出，则显示数据 php sql
2018-01-21 13:48

回答 1 已采纳 I would use not exists: select n.* from networks n where not exists (select 1 f
机器学习中常见的六种分类算法（附Python源码+数据集）
2021-12-09 14:03

lyc2016012170的博客今天和大家学习一下机器学习中常见的六种分类算法，如K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、随机森林除了介绍这六种不同分类算法外，还附上对应的Python代码案例，并分析各自的优缺...
python 比对两个excel表数据_python 如何快速找出两个电子表中数据的差异
2020-12-20 05:59

weixin_39588432的博客公司里会有这样的场景：有一张电子表格的内容由两三个部门或者更多的部门用到，这些员工会在维护这些表格中不定期的跟新一些自己部门的数据，时间久了，大家的数据就开始打架了，非常不利于管理。怎样快速找到两个...
没有解决我的问题, 去提问

悬赏问题

¥15 BP神经网络控制倒立摆
¥20 要这个数学建模编程的代码并且能完整允许出来结果完整的过程和数据的结果
¥15 html5+css和javascript有人可以帮吗？图片要怎么插入代码里面啊
¥30 Unity接入微信SDK 无法开启摄像头
¥20 有偿写代码要用特定的软件anaconda 里的jvpyter 用python3写
¥20 cad图纸，chx-3六轴码垛机器人
¥15 移动摄像头专网需要解vlan
¥20 access多表提取相同字段数据并合并
¥20 基于MSP430f5529的MPU6050驱动，求出欧拉角
¥20 Java-Oj-桌布的计算

码龄粉丝数原力等级 --

需要更快的方法来列出项目中的所有数据集/表

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

需要更快的方法来列出项目中的所有数据集/表

1条回答 默认 最新

悬赏问题

1条回答默认最新