cogroup操作 rdd具体操作

cogroup的函数实现:这个实现根据两个要进行合并的两个RDD操作,生成一个CoGroupedRDD的实例,这个RDD的返回结果是把相同的key中两个RDD分别进行合并操作,最后返回的RDD的value是一个Pair的实例,这个实例包含两个Iterable的值,第一个值表示的是RDD1中相同KEY的值,第二个值表示的是RDD2中相同key的值.由于做cogroup的操作,需要通过partitioner进行重新分区的操作,因此,执行这个流程时,需要执行一次shuffle的操作(如果要进行合并的两个RDD的都已经是shuffle后的rdd,同时他们对应的partitioner相同时,就不需要执行shuffle,)，场景：表关联查询；
在使用hive的时候可以指定cogroup

FROM (
     FROM (
             FROM action_video av
             SELECT av.uid AS uid, av.id AS id, av.date AS date
 
            UNION ALL
 
             FROM action_comment ac
             SELECT ac.uid AS uid, ac.id AS id, ac.date AS date
     ) union_actions
     SELECT union_actions.uid, union_actions.id, union_actions.date
     CLUSTER BY union_actions.uid) map
 
 INSERT OVERWRITE TABLE actions_reduced
     SELECT TRANSFORM(map.uid, map.id, map.date) USING 'reduce_script' AS (uid, id, reduced_val);

参考：https://www.jianshu.com/p/ee8acf6f5e74
参考：https://developer.aliyun.com/ask/256232

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

RDD算子操作的一个问题 apache java python redis scala
2019-09-29 14:39

回答 1 已采纳 https://blog.csdn.net/dsl200970/article/details/70148195
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
RDD二元操作
2018-06-08 11:20

计算机-周卓的博客如果出现一些函数不能用导入包import org.apache.spark.api.javaunion++ 等价于 union 将两个rdd做并集val rdd1 = sc.parallelize(List(1,2,3,4,5))val rdd2 = sc.parallelize(List(6,7,8,9,10))Val rdd3 = rdd1 ++ ...
一个大数据面试题求助 apache java mysql scala sql
2019-09-20 13:34

回答 1 已采纳 https://www.chinahadoop.cn/page/100
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
大数据系列之PySpark配置及RDD操作
2021-04-22 19:43

solihawk的博客 PySpark实现了Spark对于Python的API，本文简要介绍了PySpark的配置，以及通过PySpark对RDD进行Transform和Action操作。
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
关于#lua#的问题：则rdd.getNumPartitions lua spark
2022-11-29 12:45

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以返回结果是2
关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
Spark RDD算子（七）groupByKey、cogroup
2020-11-11 14:37

jalrs的博客 groupByKey会将RDD[key,value]按照相同的key进行分组，形成RDD[key,iterable[value]]的形式，有点类似于sql中的groupby，例如类似于mysql中的group_contact 例：对学生成绩进行分组 scala版本： val conf = new ...
dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
大数据——Spark RDD算子（七）键值对分组操作groupByKey、cogroup
2020-11-09 17:00

蜂蜜柚子加苦茶的博客 Spark RDD算子（七）键值对分组操作groupByKey、cogroupgroupByKeyScala版本Java版本cogroupScala版本Java版本 groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPartitions: Int): RDD[(K, ...
大数据管理技术 RDD及其转换操作/行动操作
2020-05-01 12:13

Jxufe渣渣斯的博客参考链接： ...（2）spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍 https://blog.csdn.net/helloxiaozhe/article/details/78481784 （3）常见转换操作和行动操作 https://blog...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月14日

悬赏问题

¥15 孟德尔随机化怎样画共定位分析图
¥18 模拟电路问题解答有偿速度
¥15 CST仿真别人的模型结果仿真结果S参数完全不对
¥15 误删注册表文件致win10无法开启
¥15 请问在阿里云服务器中怎么利用数据库制作网站
¥60 ESP32怎么烧录自启动程序
¥50 html2canvas超出滚动条不显示
¥15 java业务性能问题求解(sql，业务设计相关)
¥15 52810 尾椎c三个a 写蓝牙地址
¥15 elmos524.33 eeprom的读写问题

cogroup操作 rdd具体操作

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新