spark rdd 取前20条 saveAsHadoopDataset

如题，现在有一个需求，已经排序好了的数据我需要前20条存入Hbase，我的代码如下：
certnoRDD.map(x=>{
val key=x._1.split("_")(0)+"_CETRNOTOP20_"+c.get(Calendar.YEAR)+"_"+(c.get(Calendar.MONTH)+1)
(key,x._1.split("_")(1),x._2)
}).map(convertRDD(HbaseTableName)(hbaseTableFamily)("INFOCONTENT")("NUM")).saveAsHadoopDataset(jobConfig)

            //关联关系保存
def convertRDD(tableName: String)(columnFamily: String)(columnName1: String)(columnName2: String)
              (triple: (String,String, Int)) = {
    val p = new Put(HbaseKeyUtils.convertRowKey(tableName, triple._1))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName1), Bytes.toBytes(String.valueOf(triple._2)))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName2), Bytes.toBytes(String.valueOf(triple._3)))
    (new ImmutableBytesWritable, p)
}

但我使用take或者top之后无法再使用saveAsHadoopDataset，求大神给指点下

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-09-20 16:41
关注
http://blog.csdn.net/ldds_520/article/details/51339309

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
Spark RDD算子
2020-11-06 14:51

喵Ja的博客目录...调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试 scala版本 def paralle
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
如何将spark读入的txtRDD文本转为Vector格式 mllib spark 机器学习
2018-11-19 09:05

回答 1 已采纳 https://blog.csdn.net/coding01/article/details/81512430
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
sparkRDD函数详解
2018-12-02 22:56

CoderBoom的博客 1. RDD操作详解启动spark-shell spark-shell --master spark://node-1:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一...
则rdd.getNumPartitions的结果是什么 spark
2022-11-29 12:53

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以答案是：2
关于#lua#的问题：则rdd.getNumPartitions lua spark
2022-11-29 12:45

回答 1 已采纳 RDD.getNumPartitions()返回 RDD 中的分区数所以返回结果是2
运行Spark jar包的时候逻辑代码都运行结束了一直在前台 Removing RDD 223 .... cleaned accumulator ..... scala
2020-04-10 01:01

回答 1 已采纳 https://blog.csdn.net/wzq294328238/article/details/48054525/
spark RDD算子大全
2019-07-12 10:11

SqrsCbrOnly1的博客 1、RDD操作详解启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个...
spark读取不了本地文件是怎么回事 spark
2018-05-18 09:25

回答 2 已采纳如果程序中读取的是本地文件，那么，要在所有的节点都有这个数据文件，只在master中有这个数据文件时执行程序时一直报找不到文件解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。
SparkRDD函数详解
2018-03-12 21:13

NicholasEcho的博客 1、RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1) mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之...
spark rdd介绍
2019-03-16 18:22

zhou12314456的博客 RDD(Resilient Distributed Dataset,弹性分布式数据集)，是Spark最为核心的概念。官方说法是RDD是只读的，分区记录的集合。 RDD具体包含了一些什么东西 rdd是一个类，它包含了数据应该在哪算，具体该怎么算，算完了...
没有解决我的问题, 去提问

悬赏问题

¥15 关于#python#的问题：求帮写python代码
¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？

spark rdd 取前20条 saveAsHadoopDataset

1条回答 默认 最新

悬赏问题

1条回答默认最新