2401_85540850 2024-06-19 16:38 采纳率: 82.6%

已结题

hbase搭建的双节点搭建

关于hbase(双节点集群)提供的subject_score数据集使用hbase map reduce编写代码并打成jar包将subject_score数据导入hbase的subject表中

可提取文字

可转文字

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-06-19 16:38

关注

引自免费微信小程序：皆我百晓生

要将CSV文件subject_score.csv中的数据导入到HBase的subject表中，可以使用MapReduce作业。首先，确保Hadoop和HBase环境已正确配置，并且CSV文件已经上传到HDFS。

步骤 1: 创建HBase表

在HBase Shell中创建一个名为subject的表，包含info列族。

hbase(main):001:0> create 'subject', 'info'

步骤 2: 编写MapReduce程序

使用Java编写一个MapReduce程序，读取HDFS上的CSV文件，并将数据写入HBase表中。

Mapper类

Mapper类应该解析CSV行，并将学号作为row key，科目和分数作为列名和值。

import java.io.IOException;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;

public class SubjectScoreMapper extends TableMapper<ImmutableBytesWritable, Put> {
    private final static ImmutableBytesWritable row = new ImmutableBytesWritable();
    private final static Text family = new Text("info");
    
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] parts = value.toString().split(",");
        if (parts.length == 3) {
            String studentId = parts[0];
            String subject = parts[1];
            String score = parts[2];
            
            Put put = new Put(Bytes.toBytes(studentId));
            put.addColumn(family.getBytes(), Bytes.toBytes(subject), Bytes.toBytes(score));
            row.set(Bytes.toBytes(studentId));
            context.write(row, put);
        }
    }
}

Reducer类

Reducer在这个场景中不是必需的，因为我们可以直接从Mapper输出写入HBase。但是，如果你需要进行一些汇总操作，你可以添加一个Reducer类。

Driver类

这个类用于设置作业参数，包括输入输出路径、Mapper和Reducer类（如果有的话），以及HBase表的信息。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class SubjectScoreJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = HBaseConfiguration.create();
        Job job = Job.getInstance(conf, "Subject Score Import");
        job.setJarByClass(SubjectScoreJob.class);
        job.setMapperClass(SubjectScoreMapper.class);
        // job.setReducerClass(YourReducerClass.class); // 如果有Reducer
        job.setOutputKeyClass(ImmutableBytesWritable.class);
        job.setOutputValueClass(Put.class);
        
        FileInputFormat.addInputPath(job, new Path(args[0]));
        job.setOutputFormatClass(TableOutputFormat.class);
        TableOutputFormat.configureIncrementalLoad(job, "subject", null);
        
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

步骤 3: 打包并运行

编译上述Java类，并将它们打包成一个JAR文件。然后，使用Hadoop命令行工具提交MapReduce作业。

hadoop jar your-jar-file.jar SubjectScoreJob /path/to/subject_score.csv

这将启动MapReduce作业，从CSV文件读取数据，并将其写入HBase的subject表中。确保替换your-jar-file.jar和/path/to/subject_score.csv为实际的JAR文件名和CSV文件的HDFS路径。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

Hadoop+hbase+Scala怎么搭建！！急 hadoop hbase scala 有问必答
2022-03-04 23:00

回答 2 已采纳可以参考下这个搭建教程，希望对你有帮助： Spark+Hbase+Hadoop+Scala模拟完全分布搭建教程 - 简书其实网上已经有好多
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
大数据学习之hbase搭建
2022-06-14 00:42

卡耐基 · 杨的博客 hbase搭建详细步骤教程
hbase启动后没有主进程和从进程 hadoop hbase 大数据
2022-11-01 17:22

回答 1 已采纳 http://t.csdn.cn/tlrDh
hbase的master变成backup master怎么解决呢 hbase 有问必答
2022-04-10 15:48

回答 2 已采纳目测推断你的集群hadoop处于安全模式，在安全模式下运行hbase就会出现这种错误，退出安全模式即可 hdfs dfsadmin -safemode get//如果返回Safe mode is O
HBASE启动说权限不够是什么情况 hbase
2022-05-19 19:29

回答 1 已采纳是因为hbase的用户没有操作/var/hadoop的权限
大数据Hadoop集群之超级详细的HBase搭建
2022-11-22 00:58

派大星子fff的博客 大数据Hadoop集群之HBase搭建
hbase put命令 hbase
2022-10-13 10:19

回答 1 已采纳就是会覆盖的，put覆盖的旧数据不会直接消失，在最新数据被删除时还有可能会出现HBase delete和put使用注意点，并不是get或scan出现bug！_热心小伙chj的博客-CSDN博客_hba
关于hbase的环境搭建数据库
2011-05-07 11:29

回答 2 已采纳未发现软件包只是说你的UBUNTU配置的源找不到你要的软件 UBUNTU一般会默认配置几个官方仓库,里面放了些UBUNTU提供的软件,当执行apt-get 时就是从这些仓库里找
hbase shell无法正常使用 hbase
2022-04-19 23:44

回答 2 已采纳日志里报跟192.168.10.102的8020没法建立链接，心跳没了，看一下192.168.10.102是不是宕机了，或者是不是端口占用了8020端口在hadoop1.x中默认承担着namenode
大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1
2022-08-03 16:50

总的来说，搭建Hadoop、HBase、Spark和Hive集群涉及多个步骤，包括安装、配置、启动以及验证。整个过程需要对大数据处理原理有深入理解，并熟悉Linux系统的操作。完成后，这个集群可以处理大量数据，支持实时查询和...
Hbase JavaAPI hadoop hbase java
2022-06-23 16:30

回答 1 已采纳从报错信息来看，应该是HBase服务没有正常启动。HBase的前置环境为Hadoop，需要在HDFS上存放信息，所以需要预先确认Hadoop服务正常运行。启动HBase后，确定jps中有HMaster
大数据之HBase集群搭建
2023-01-29 08:53

「已注销」的博客 HBase环境搭建
Hbase环境搭建
2022-11-27 20:38

遇安.YuAn的博客本文详细的写有：Hadoop伪分布式Hbase环境搭建、Hadoop完全分布式Hbase环境搭建的步骤。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月19日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见