2401_85540850 2024-06-19 16:10 采纳率: 82.6%

已结题

关于#hbase#的问题：编写hbase的双节点并将数据集编写到代码打包jar将sub数据导出

编写hbase的双节点并将数据集编写到代码打包jar将sub数据导出

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-06-19 16:10

关注

引自免费微信小程序：皆我百晓生

为了解决你的问题，我们将按照以下步骤操作：

第一步：HBase 双节点集群部署

配置环境

确保两台机器上都安装了 JDK 1.8 和 Zookeeper 3.0+。

HBase 配置

在每台机器上编辑hbase-site.xml:

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://master:9000/hbase</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>node1,node2</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
</configuration>

配置ZooKeeper:
- 在zoo.cfg文件中设置server.id=node_ip:port。

启动集群

在node1启动ZooKeeper。
在node2启动ZooKeeper。
在node1启动HMaster。
在node2启动HRegionServer。

第二步：编写 MapReduce 程序导入数据

假设CSV文件格式如下：

student_id,subject,score
202100001,语文,73
...

Java程序

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import java.io.IOException;

public class SubjectScoreLoader {

    public static class SubjectScoreMapper extends Mapper<Object, Text, ImmutableBytesWritable, Put> {
        private final static ImmutableBytesWritable rowKey = new ImmutableBytesWritable();
        private Put put = new Put();

        @Override
        protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String[] parts = value.toString().split(",");
            String studentId = parts[0];
            String subject = parts[1];
            int score = Integer.parseInt(parts[2]);

            rowKey.set(studentId);
            put.add("cf".getBytes(), subject.getBytes(), new IntWritable(score).get());
            context.write(rowKey, put);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Job job = Job.getInstance(conf, "Subject Score Loader");
        job.setJarByClass(SubjectScoreLoader.class);
        job.setMapperClass(SubjectScoreMapper.class);
        job.setOutputKeyClass(ImmutableBytesWritable.class);
        job.setOutputValueClass(Put.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TableOutputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        TableOutputFormat.configureJobForDirectWrite(job, "subject", "cf");
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

第三步：打包程序

使用Maven或Gradle打包上述Java程序为JAR文件。

第四步：运行MapReduce作业

使用Hadoop命令行提交JAR文件运行MapReduce作业：

hadoop jar subject-score-loader.jar SubjectScoreLoader /input/subject_score.csv output

第五步：文档编写

创建文档，详细记录上述步骤，包括环境配置、代码实现、运行结果截图等。

第六步：验证数据

通过HBase shell或HBase UI检查数据是否正确导入。

以上步骤应能帮助你完成从HBase集群部署到数据导入的整个流程。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

关于#hbase#的问题：Could not resolve hostname noed1 hbase
2022-06-20 23:10

回答 1 已采纳检查一下Hbase相关的配置文件，你的主机名是node1，你应该配置成了noed1，拼写错误。有帮助请采纳，还有不懂的可以继续追问~
关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客 3.8.7 Kafka分区动态增加，Flink监控不到新分区数据导致数据丢失 3.8.9 Kafka某个分区没有数据，导致下游水位线无法抬升，窗口无法关闭计算 3.8.10 Hbase的rowkey设计不合理导致的数据热点问题 3.8.11 Redis和HBase...
直接将hbase数据存磁盘和存hdfs的区别是什么？ hbase
2021-07-08 10:38

回答 2 已采纳 hdfs和磁盘的区别在于 hdfs从设计上存在分布式高可用可控副本数，Block块等特别，磁盘目前还无法满足，且生态上目前都是兼容hdfs而不是磁盘。存储的设计底层还是数据结构不一样，可以从这方向思
已经将数据集以csv的形式导入了hive里面怎么实现以下要求啊 hbase hive ubuntu
2023-04-17 14:34

回答 1 已采纳思路：1、建表路径指向你csv数据存放路径2、使用Java或者python语言写代码展现数据[或者使用数据可视化工具：帆软、阿里Quick BI等]
Sqoop导入数据到Hbase报错 jar
2020-03-01 16:28

回答 1 已采纳 sqoop api太低，需要把hbase和sqoop源码重新编译替换jar
数据中台建设方案-基于大数据平台
2023-03-14 16:45

FRDATA1550333的博客通过对客户大数据应用平台服务需求的理解，根据建设目标、设计原则的多方面考虑，建议采用星环科技Transwarp Data Hub（TDH）大数据基础平台的架构方案，基于Transwarp Operating System（简称TOS）云平台方式部署...
关于#kylin#的问题，如何解决？ hbase kylin mr
2023-03-19 16:07

回答 1 已采纳参考GPT和自己的思路：根据报错信息来看，这个问题可能是由于 hbase-util 库版本不兼容导致的。您可以尝试更新 hbase-util 库，并重新编译和部署 kylin，看看是否可以解决该问题
关于hbase中hmaster关不掉的问题 hbase
2022-09-13 14:36

回答 1 已采纳该问题原因是因为各个服务器之间系统时间不同步导致的，linux系统时间同步请看这位博主https://blog.csdn.net/MaleLiu/article/details/106806284
关于Eclipse远程连接伪分布式HBase的问题，如何解决？ eclipse hadoop hbase
2023-03-31 00:07

回答 3 已采纳要制定zookeeper地址configuration.set("hbase.zookeeper.quorum", "172.21.55.100");
全面认识当前市面99%的大数据技术框架（附:各大厂大数据技术应用文章）
2020-12-20 18:49

菜鸟也学大数据的博客 大数据面试题(完整） 2020大数据面试题真题总结(附答案)：点击这里技术栈 Hadoop 万亿数据下 Hadoop 的核心竞争力：点击这里 HBase HBase应用与高可用实践：点击这里 Kafka 基于 Kafka 的实时计算引擎如何选择？...
如何将存储量很大的txt文档数据导入到hbase当中 hbase
2014-12-29 07:22

回答 4 已采纳方案一： 1、在Linux环境利用split命令把文件分块； 2、多线程对多文件读取写入HBase 方案二： 1、要看文件的格式是怎么样的，你想存HBase的格式怎样的 2、把文件按照格式分
大数据开发面试知识点总结
2021-02-09 11:22

GoAI的博客本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。
【大数据之路5-1】数据仓库工具 Hive
2023-06-09 08:23

程序员老五的博客 大数据：历史数据，预测未来Hive 由 FaceBook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL（Hive SQL）查询功能，底层数据存储在 HDFS 上。Hive 的本质是将 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月19日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见