spark rdd 取前20条 saveAsHadoopDataset

如题，现在有一个需求，已经排序好了的数据我需要前20条存入Hbase，我的代码如下：
certnoRDD.map(x=>{
val key=x._1.split("_")(0)+"_CETRNOTOP20_"+c.get(Calendar.YEAR)+"_"+(c.get(Calendar.MONTH)+1)
(key,x._1.split("_")(1),x._2)
}).map(convertRDD(HbaseTableName)(hbaseTableFamily)("INFOCONTENT")("NUM")).saveAsHadoopDataset(jobConfig)

            //关联关系保存
def convertRDD(tableName: String)(columnFamily: String)(columnName1: String)(columnName2: String)
              (triple: (String,String, Int)) = {
    val p = new Put(HbaseKeyUtils.convertRowKey(tableName, triple._1))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName1), Bytes.toBytes(String.valueOf(triple._2)))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName2), Bytes.toBytes(String.valueOf(triple._3)))
    (new ImmutableBytesWritable, p)
}

但我使用take或者top之后无法再使用saveAsHadoopDataset，求大神给指点下

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-09-20 16:41
关注
http://blog.csdn.net/ldds_520/article/details/51339309

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark RDD算子
2020-11-06 14:51

喵Ja的博客目录...调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试 scala版本 def paralle
SparkRDD函数详解
2018-03-12 21:13

NicholasEcho的博客 1、RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1) mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之...
sparkRDD函数详解
2018-12-02 22:56

CoderBoom的博客 1. RDD操作详解启动spark-shell spark-shell --master spark://node-1:7077 1.1 基本转换 1) map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一...
spark RDD算子大全
2019-07-12 10:11

SqrsCbrOnly1的博客 1、RDD操作详解启动spark-shell spark-shell --master spark://hdp-node-01:7077 1.1 基本转换 map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个...
Spark算子：Action之saveAsHadoopFile、saveAsHadoopDataset
2018-09-21 09:13

cleargy的博客 saveAsHadoopDataset用于将RDD保存到除了HDFS的其他存储中，比如HBase。在JobConf中，通常需要关注或者设置五个参数：文件的保存路径、key值的class类型、value值的class类型、RDD的输出格式(OutputFormat)以及压缩...
Spark RDD 练习
2020-04-13 21:16

睡覺了的博客 1、创建一个1-10数组的RDD，将所有元素*2形成新的RDD scala>...rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24 scala> val rdd2 ...
spark rdd介绍
2019-03-16 18:22

zhou12314456的博客 RDD(Resilient Distributed Dataset,弹性分布式数据集)，是Spark最为核心的概念。官方说法是RDD是只读的，分区记录的集合。 RDD具体包含了一些什么东西 rdd是一个类，它包含了数据应该在哪算，具体该怎么算，算完了...
Spark RDD常用算子
2020-11-22 22:06

「已注销」的博客 Spark RDD常用算子一、parallelize 调用SparkContext 的 parallelize()，将一个存在的集合，变成一个RDD，这种方式试用于学习spark和做一些spark的测试 scala版本 scala的parallelize有两个参数，第一个是一个Seq...
spark RDD
2017-12-14 14:22

Ink__Bamboo的博客该文档根据spark工程师qq群（511947673）中提供的rdd-api.pdf文档中rdd顺序，进行了一系列的测试。部分不详细的rdd/transform参考： http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html。该...
Spark RDD操作之Action操作
2020-03-01 20:49

又乖又怂的博客 first def first(): T first返回RDD中的第一个元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2...rdd1: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[33] at mak...
没有解决我的问题, 去提问

spark rdd 取前20条 saveAsHadoopDataset

1条回答 默认 最新

1条回答默认最新