Apache Beam Go SDK-数据流无法正确自动缩放（并行化步骤）

I have a beam batch pipeline written in Go that takes a .csv file of 20 million rows (around 600mb worth of data), do basics transformation steps such as SumPerKey and write back the output to GCS.

When running the pipeline on Dataflow, it invokes a pool of 1 runner only!

I was expecting Dataflow to parallelize the job between multiple workers for this amount of data. Am I missing something ?

Here's my code:

func main() {
    flag.Parse()

    beam.Init()

    p, s := beam.NewPipelineWithRoot()

    ctx := context.Background()

    log.Infof(ctx, "Started pipeline on scope: %s", s)

    /* [TEST PIPELINE START ]*/

    sr := csvio.Read(s, *input, reflect.TypeOf(Rating{}))

    pwo := beam.ParDo(s.Scope("Pair Key With One"),
        func(x Rating, emit func(int, int)) {
            emit(x.UserId, 1)
        }, sr)

    spk := stats.SumPerKey(s, pwo)

    mp := beam.ParDo(s.Scope("Map KV To Struct"),
        func(k int, v int, emit func(UserRatings)) {
            emit(UserRatings{
                UserId:  k,
                Ratings: v,
            })
        }, spk)

    t := top.Largest(s, mp, 1000, func(x, y UserRatings) bool { return x.Ratings < y.Ratings })

    o := beam.ParDo(s, func(x []UserRatings) string {
        if data, err := json.MarshalIndent(x, "", ""); err != nil {
            return fmt.Sprintf("[Err]: %v", err)
        } else {
            return fmt.Sprintf("Output: %s", data)
        }
    }, t)

    textio.Write(s, *output, o)

    /* [TEST PIPELINE END ]*/

    if err := beamx.Run(ctx, p); err != nil {
        fmt.Println(err)
        log.Exitf(ctx, "Failed to execute job: on ctx=%v:")
    }
}

Full Code Here

I deploy the pipeline via this command line:

go run main.go \
  --runner dataflow \
  --max_num_workers 10 \
  --file gs://${BUCKET?}/ratings.csv \
  --output gs://${BUCKET?}/reporting.txt \
  --project ${PROJECT?} \
  --temp_location gs://${BUCKET?}/tmp/ \
  --staging_location gs://${BUCKET?}/binaries/ \
  --worker_harness_container_image=gcr.io/drawndom-app/beam/go:latest

Note: When I set --num_workers to 5, it invokes 5 workers but I want it to do that automatically.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
doupiai5597 2019-09-13 14:43
关注
Update:

I've added a Reshuffle step right before the .csv input thanks to this lib and Dataflow was able to do auto-scaling by adding 1 more worker.

I still need to understand how to optimise parallelism on my pipelines.

Code used:

func Reshuffle(s beam.Scope, col beam.PCollection) beam.PCollection { s = s.Scope("Reshuffle") col = beam.ParDo(s, func(x beam.X) (int, beam.X) { return rand.Int(), x }, col) col = beam.GroupByKey(s, col) return beam.ParDo(s, func(key int, values func(*beam.X) bool, emit func(beam.X)) { var x beam.X for values(&x) { emit(x) } }, col) }
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

转到SDK Apache Beam：单边输入Single int定义不正确
2019-09-09 12:07

回答 1 已采纳 Update: This can be simplified by removing the beam.Impulse() function (I think the wrong type ca
高分悬赏 apache avro数据 C与Java通信序列化问题 apache java
2017-08-07 02:38

回答 2 已采纳已经找到解决办法。还是因为对API不熟造成的。avro 有方法能够解析无scheam的文件。前提是在类方法中指定一个scheam进行解析。大致方法如下。 public static List
apache访问dcat-admin报404 apache laravel php
2022-08-23 10:04

回答 1 已采纳在laravel的 public 目录下添加 .htaccess 文件，文件内容如下 Options -MultiViews Rewrit
Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink
2018-09-05 10:13

weixin_34055910的博客 Apache Beam 的出现正好迎合了这个时代的新需求，它集成了很多数据库常用的数据源并把它们封装成 SDK 的 IO，开发人员没必要深入学习很多技术，只要会写 Beam 程序就可以了，大大节省了人力、时间以及成本。...
如何通过unix socket设置Apache2和PHP-FPM？ apache docker php
2017-09-18 06:26

回答 1 已采纳 Okie, so have the repo helped to fix the issue. Issue #1 - www.conf being copied in apache contai
jdk11配置apache-maven-3.8.1报错 java 有问必答
2021-06-07 09:15

回答 3 已采纳必须设置JAVA_HOME 的环境变量，桌面-》我的电脑-》右键属性进入设置。
Apache PHP / PDO - 登录超时已过期 apache php
2018-10-17 22:42

回答 1 已采纳 The solution setsebool -P httpd_can_network_connect=1 setsebool -P httpd_can_network_connect_db=1
Apache Beam实战指南 | 玩转KafkaIO与Flink
2018-09-12 18:19

weixin_34378969的博客 AI前线导读：本文是 Apache Beam实战指南系列文章的第二篇内容，将重点介绍 Apache Beam与Flink的关系，对Beam框架中的KafkaIO和Flink源码进行剖析，并结合应用示例和代码解读带你进一步了解如何结合Beam玩转Kafka...
Apache2与php-fpm error_log设置 apache php
2017-04-05 22:08

回答 1 已采纳 Are you running the script from the shell? Then 2> will echo the errors to a file you name. s
apache Tika 图片识别tesseract-OCR改成tess4j.jar调用方式，求思路 intellij-idea jar java java-ee spring
2019-04-22 16:33

回答 1 已采纳参考tika-2293需求，已解决
JSP的org.apache.jasper.JasperException: 无法为JSP编译类，如何解决？ apache intellij-idea java
2023-03-16 21:31

回答 3 已采纳参考GPT和自己的思路：这个问题是由于无法编译JSP类导致的，可能有多种原因导致，以下是解决这个问题的一些可能的方法：检查Java编译器是否正确安装，并且路径是否正确配置。检查JSP文件中是否存在
Beam的SDK编程接口
2023-10-03 01:38

禅与计算机程序设计艺术的博客 Beam 是一个分布式的流处理平台，提供实时、准确、可靠的数据处理能力。Beam 提供了一系列的 SDK(Software Development Kit)，开发人员可以基于这些 SDK 和工具快速地开发出数据处理应用。本文将从 SDK 的基础知识...
Linux安装Apache出错configure: error: Did not find working script at pcre-config apache linux
2022-05-16 17:05

回答 1 已采纳你确定你的pcre已经配置了吗？直接检测不到，所以肯定不能往下走，肯定会报错。
盘点2017年晋升为Apache TLP的大数据相关项目
2018-01-02 10:04

黑虎含珠的博客本文主要盘点了 2017 年晋升为 Apache Top-Level Project (TLP) 的...1 Apache Beam: 下一代的大数据处理标准 2 Apache Eagle: 分布式实时Hadoop数据安全方案 3 Apache Ranger：统一授权管理框架 4 Apache Met
最全大数据学习资源整理
2019-03-08 10:36

数据工程师大牛的博客关系数据库管理系统(RDBMS) ...Apache Hadoop：分布式处理架构，结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon：高吞吐量实时流处理框架。互联网科技发展蓬勃兴起，人工智能...
没有解决我的问题, 去提问

悬赏问题

¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥30 python代码，帮调试，帮帮忙吧

Apache Beam Go SDK-数据流无法正确自动缩放（并行化步骤）

1条回答 默认 最新

悬赏问题

1条回答默认最新