hbase中的 TableScanMR 使用方法是什么？

之前看网上的大佬说：“HBase中Scan从大的层面来看主要有三种常见用法：ScanAPI、TableScanMR以及SnapshotScanMR。”但是我想知道TableScanMR和SnapshotScanMR 是怎么实现的呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

TTLGain 2019-03-26 07:52

关注

Configuration config = HBaseConfiguration.create();
Job job = new Job(config, "ExampleRead");
job.setJarByClass(MyReadJob.class);     // class that contains mapper

Scan scan = new Scan();
scan.setCaching(500);        // 1 is the default in Scan, which will be bad for MapReduce jobs
scan.setCacheBlocks(false);  // don't set to true for MR jobs
// set other scan attrs
...

TableMapReduceUtil.initTableMapperJob(
  tableName,        // input HBase table name
  scan,             // Scan instance to control CF and attribute selection
  MyMapper.class,   // mapper
  null,             // mapper output key
  null,             // mapper output value
  job);
job.setOutputFormatClass(NullOutputFormat.class);   // because we aren't emitting anything from mapper

boolean b = job.waitForCompletion(true);
if (!b) {
  throw new IOException("error with job!");
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

API对HBase进行MR操作
2020-10-23 10:20

冉半夏生的博客以下代码是实现将HDFS中的数据文件保存到HBase中若是要读HDFS中的文件则map继承Mapper，若要读取HBase中的文件则继承TableMapper 其中TableMapper只需要传两个out put的参数，另外两个是默认的若要写入HBase则...
SnapshotScanMR速度比TableScanMR快10~30倍，那Spark如何实现SnapshotScanMR
2024-10-19 03:30

龙大.的博客 HBase 提供的和是两种用于在大数据集中进行扫描的 MapReduce 作业，网上也有很多介绍Spark如何实现TableScanMR，但是对SnapshotScanMR的实现方式很少几乎没找到可用的，接下来我们先说说这两者的一些共同点以及不同...
HBase最佳实践 – Scan用法
2019-01-16 09:12

程序の之道的博客 HBase从用法的角度来讲其实乏陈可善，所有更新插入删除基本一两个API就可以搞定，要说稍微有点复杂的话，Scan的用法可能会多一些说头。而且经过笔者观察，很多业务对Scan的用法可能存在一些误区(对于这些误区，笔者...
玩转HBase百亿级数据扫描
2019-07-16 23:37

大数据技术架构的博客出于中通业务场景的特殊性，我们需要大量的回刷7-15天的数据，如果全部用离线抽取的方式，会给业务系统带来巨大压力，所以利用Hbaserowkey更新的特性，来存储业务数据的历史更新，每天ETL的任务需要大量从Hbase拉取...
3-2+58同城+HBase+平台实践和应用.pdf
2022-03-18 09:33

本文主要探讨了58同城在使用HBase大数据存储平台上的实践经验与应用。HBase作为一个分布式列式数据库，广泛应用于处理大规模数据的实时读写场景。在中国HBase技术社区网站（http://hbase.group）上，分享了关于HBase...
HBase最佳实践 – Scan用法大观园
2021-04-16 03:41

码农老K的博客 HBase从用法的角度来讲其实乏陈可善，所有更新插入删除基本一两个API就可以搞定，要说稍微有点复杂的话，Scan的用法可能会多一些说头。而且经过笔者观察，很多业务对Scan的用法可能存在一些误区(对于这些误区，笔者...
HBase实战 | 58HBase平台实践和应用-平台建设篇
2019-04-02 11:23

hongtaq156136的博客摘要：HBase是一个基于Hadoop的分布式、面向列的Key-Value存储系统，可以对需要实时读写、随机访问大规模数据集的场景提供高可靠、高性能的服务，在大数据相关领域应用广泛。HBase可以对数据进行透明的切分，使得...
HBase实战 | 58HBase平台实践和应用-平台建设篇
2018-12-28 13:01

flybirding10011的博客 HBase是一个基于Hadoop的分布式、面向列的Key-Value存储系统，可以对需要实时读写、随机访问大规模数据集的场景提供高可靠、高性能的服务，在大数据相关领域应用广泛。HBase可以对数据进行透明的切分，使得存储和...
HBase Java API开发：表的扫描与扫描的缓存和批量处理
2023-11-12 08:50

咖啡不提神的博客 /********* End *********/ } } 第3关：在扫描中使用缓存和批量参数编程要求请补全scanTable(String tablename)函数实现扫描表的功能，参数tablename为表名，完成如下操作：设置扫描缓存为200；设置扫描值...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

hbase中的 TableScanMR 使用方法是什么？

3条回答默认最新

码龄粉丝数原力等级 --

hbase中的 TableScanMR 使用方法是什么？

3条回答 默认 最新

3条回答默认最新