Spark使用 saveAsNewAPIHadoopFile 通过Bulkload写Hbase错误

异常：
Caused by: java.lang.ClassCastException: org.apache.hadoop.hbase.client.Put cannot be cast to org.apache.hadoop.hbase.Cell
at org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2$1.write(HFileOutputFormat2.java:152)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply$mcV$sp(PairRDDFunctions.scala:1125)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1123)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12$$anonfun$apply$4.apply(PairRDDFunctions.scala:1123)
at org.apache.spark.util.Utils$.tryWithSafeFinallyAndFailureCallbacks(Utils.scala:1341)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1131)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsNewAPIHadoopDataset$1$$anonfun$12.apply(PairRDDFunctions.scala:1102)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:282)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

核心代码：
Configuration conf = HBaseConfiguration.create();
    conf.set(TableOutputFormat.OUTPUT_TABLE, "wwtest");
    conf.set(ConfigUtils.getHbaseZK()._1(), ConfigUtils.getHbaseZK()._2());
    conf.set(ConfigUtils.getHbaseZKPort()._1(), ConfigUtils.getHbaseZKPort()._2());
    Job job = Job.getInstance();
    job.setMapOutputKeyClass(ImmutableBytesWritable.class);
    job.setMapOutputValueClass(Put.class);
    job.setOutputFormatClass(HFileOutputFormat2.class);

    Connection conn = ConnectionFactory.createConnection(conf);
    TableName tableName = TableName.valueOf("wwtest");
    HRegionLocator regionLocator = new HRegionLocator(tableName, (ClusterConnection) conn);
    Table realTable = ((ClusterConnection) conn).getTable(tableName);

    HFileOutputFormat2.configureIncrementalLoad(job, realTable, regionLocator);

    SparkSession spark = SparkUtils.initSparkSessionESConf(HbaseBulkLoad.class.getName(), "local[3]");
    JavaSparkContext javaSparkContext = new JavaSparkContext(spark.sparkContext());
    ArrayList<Integer> integers = new ArrayList<>();
    integers.add(1);
    integers.add(2);
    integers.add(3);
    JavaRDD<Integer> parallelize = javaSparkContext.parallelize(integers);
    JavaPairRDD<ImmutableBytesWritable, Put> mapToPair = parallelize.mapToPair(new PairFunction<Integer, ImmutableBytesWritable, Put>() {
        @Override
        public Tuple2<ImmutableBytesWritable, Put> call(Integer integer) throws Exception {

            /*KeyValue kv = new KeyValue(Bytes.toBytes(integer), "cf".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/
            Put put = new Put(Bytes.toBytes(integer));
            /*put.addColumn("info".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/
            put.add(new KeyValue(Bytes.toBytes(integer), "cf".getBytes(), "c1".getBytes(), Bytes.toBytes(integer)));

            /*put.addImmutable("info".getBytes(), "c1".getBytes(), Bytes.toBytes(integer));*/

            return new Tuple2<>(new ImmutableBytesWritable(Bytes.toBytes(integer)), put);
        }
    }).sortByKey();

    mapToPair.saveAsNewAPIHadoopFile("/tmp/wwtest", ImmutableBytesWritable.class,
            Put.class, HFileOutputFormat2.class, job.getConfiguration());

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

使用bulkload方式加载数据到HBase（三种方式）
2021-05-31 18:25

上官沐雪的博客使用spark把hive数据bulkload到HBase 场景：最近有大量数据存在hive里，由于业务需呀，把hive数据放到HBase里于是想到如下三种方案： 1.使用hive表映射hbase CREATE external TABLE `hbase_website`( `key` string...
HBase +spark 使用bulkload方式存入数据
2023-04-23 10:30

春_的博客这个命令会找到HFile文件并将其加载到指定的HBase表中。需要注意的是，这个命令需要在HBase服务器上运行，并且需要确保在运行之前已经正确配置了表和列族。
Hbase的bulkload流程与实践
2023-06-15 10:03

小强签名设计的博客通常MapReduce在写HBase时使用的是方式，在 reduce 中直接生成 put 对象写入HBase，该方式在大数据量写入时效率低下（HBase 会 block 写入，频繁进行 flush、split、compact 等大量 IO 操作），并对HBase节点的稳定...
Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中
2023-04-11 18:44

数据与算法架构提升之路的博客 Hbase之Spark通过BlukLoad的方式批量加载数据到HBase中
Hbase BulkLoad用法
2022-03-09 23:00

高个子男孩的博客 Hbase BulkLoad用法
Spark——Spark读写HBase
2019-10-29 21:06

西南偏北_的博客 HBase作为一种可以进行海量数据...而Spark作为大数据中常用的计算引擎，需要访问存储HBase中的海量数据进行分析处理。那么Spark如何整合HBase来加载HBase中的表以及将外部数据持久化到HBase？ 1. 加载HBase中的表 ...
Spark 读写Hbase(Scala)——2.批量操作
2019-06-13 17:22

羲凡丞相的博客 Spark 读写Hbase(Scala)——2.批量操作一.前提准备 1.创建命名空间和表 create_namespace 'testdata' create 'testdata:hb_staff','info' 2.pom.xml文件中要添加依赖 <dependency> <groupId>org....
spark 写 hbase
2020-10-13 18:35

派派不爱吃肉的博客以bulkload方式将数据批量导入hbase 以下以cdh5.16.2生产环境为例: hadoop版本:2.6.0 hbase版本:1.6.0 spark2版本:2.4.0 zk版本:3.4.5 1.所需依赖: <?xml version="1.0" encoding="UTF-8"?> <project
api 原生hbase_HBase原理|HBase Bulkload 实践探讨
2020-12-27 12:26

AMAX杨威的博客点击关注“有赞coder”获取更多技术干货哦～作者：赵原团队：大数据团队一、背景HBase 是一个面向列，schemaless，高吞吐，高可靠可水平扩展的 NoSQL 数据库，用户可以通过 HBase client 提供的 put get 等 api ...
spark写HBase的hfile文件，再使用bulkload方式装载时split很慢问题
2021-07-02 17:45

靠得住的风华飞雪的博客要想使用spark生成hfile，然后再使用bulkload方式向HBase装载数据，你需要：首先用spark向hdfs写hfile；然后使用java代码调起bulkload程序吧hfile装载到habse数据库中。但是在整个过程中，有以下几个点是需要...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

Spark使用 saveAsNewAPIHadoopFile 通过Bulkload写Hbase错误

0条回答默认最新

Spark使用 saveAsNewAPIHadoopFile 通过Bulkload写Hbase错误

0条回答 默认 最新

0条回答默认最新