2 my sunshine y my_sunshine_y 于 2016.09.20 16:25 提问

spark rdd 取前20条 saveAsHadoopDataset 4C

如题,现在有一个需求,已经排序好了的数据我需要前20条存入Hbase,我的代码如下:
certnoRDD.map(x=>{
val key=x._1.split("_")(0)+"_CETRNOTOP20_"+c.get(Calendar.YEAR)+"_"+(c.get(Calendar.MONTH)+1)
(key,x._1.split("_")(1),x._2)
}).map(convertRDD(HbaseTableName)(hbaseTableFamily)("INFOCONTENT")("NUM")).saveAsHadoopDataset(jobConfig)

            //关联关系保存
def convertRDD(tableName: String)(columnFamily: String)(columnName1: String)(columnName2: String)
              (triple: (String,String, Int)) = {
    val p = new Put(HbaseKeyUtils.convertRowKey(tableName, triple._1))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName1), Bytes.toBytes(String.valueOf(triple._2)))
    p.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(columnName2), Bytes.toBytes(String.valueOf(triple._3)))
    (new ImmutableBytesWritable, p)
}

但我使用take或者top之后无法再使用saveAsHadoopDataset,求大神给指点下

1个回答

devmiao
devmiao   Ds   Rxr 2016.09.21 00:41
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Spark取出(Key,Value)型数据中Value值为前n条数据
Spark对(Key,Value)型数据进行排序,并取出Value值为前n的数据
Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
saveAsHadoopFile def saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ def saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_
spark take获取前n个元素
take和 collect操作类似,都是从远程集群上获取元素,只是collect操作获取的所有数据,而take操作是获取前n个元素 直接上代码: public static void myTake(){         SparkConf conf=new SparkConf()         .setMaster("local")         .setAppName("myTak
spark获取前3个最大值
spark获取前3个最高值
Spark RDD 二次分组排序取TopK
基本需求 用spark求出每个院系每个班每个专业前3名。 样本数据 数据格式:id,studentId,language,math,english,classId,departmentId,即id,学号,语文,数学,外语,班级,院系 1,111,68,69,90,1班,经济系 2,112,73,80,96,1班,经济系 3,113,90,74,75,1班,经济系 4,114,8...
spark 对于key/value 排序 取前几 top take(转载)
看到以前很细的关于排序的文章,偷偷的将其收入希望可以让更多人看到。 来源:http://blog.csdn.net/dai451954706/article/details/52668258      最近在使用Spark进行一些日志分析,需要对日志中的一些(key,value)型数据进行排序,并取出value最多的10条数据。经过查找资料,发现Spark中的top()函数
Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
saveAsNewAPIHadoopFile def saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_   saveAsNewAPIHadoopFile
3.4 Spark RDD Action操作7-saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
1 saveAsNewAPIHadoopFile def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit def saveAsNewAPIHadoopFile(path: String, keyClass: Class[], valueClass: Cla
几个数据库的取前20条数据SQL
几个数据库的取前20条数据SQL: 1.oracle:     SELECT *  FROM ( SELECT ROWNUM SN, t.*  FROM App_event  t where  process_flag=0 ORDER BY t.id ) WHERE SN>0 AND SN 2.sqlserver:     SELECT top 20 * FROM app_event wh
第20课 :SPARK Top N彻底解秘 TOPN 排序(Scala)SPARK分组TOPN 算法(JAVA) 必须掌握!
1、TopN的排序 Scala开发 读入数据 1 4 2 5 7 9 11 23 1 2 5 6 7 8 topn排序结果 23 11 9 8 7   按隐士转换,按字符串排序运行结果 9 8 7 7 6 2、TOPN分组排序,使用JAVA开发 输入文件 Spark 100 Hadoop 62 Flink 77 Kafka 9