如何将存储量很大的txt文档数据导入到hbase当中

我现在要写一个程序，将第三方导出的txt文件内容读取并放到hbase当中。
由于txt文档非常大（超过10G），我初步思路是通过单线程读取到一个线程安全的容器当中，然后再利用多线程向hbase中写入。
请问有没有什么更好的思路，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
joeywen 2014-12-29 15:32
关注
方案一：
1、在Linux环境利用split命令把文件分块；
2、多线程对多文件读取写入HBase
方案二：
1、要看文件的格式是怎么样的，你想存HBase的格式怎样的
2、把文件按照格式分割建表存入Hive
3、利用HiveIntegrate 工具把Hive映射到HBase 表
方案三：
1、HBase现已支持MapReduce，把文件先load到HDFS，利用命令：hdfs fs -copyFromLoad xxx xxxxxx
2、编写MapReduce程序，读取存入HDFS的文件，程序会自动split文件，然后有多个mapper读取
然后在reduce中把数据写入hbase。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

如何将存储量很大的txt文档数据导入到hbase当中 hbase
2014-12-29 07:22

回答 4 已采纳方案一： 1、在Linux环境利用split命令把文件分块； 2、多线程对多文件读取写入HBase 方案二： 1、要看文件的格式是怎么样的，你想存HBase的格式怎样的 2、把文件按照格式分
关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
Sqoop导入数据到Hbase报错 jar
2020-03-01 16:28

回答 1 已采纳 sqoop api太低，需要把hbase和sqoop源码重新编译替换jar
ruoyi+Hadoop+hbase实现大数据存储查询
2023-11-30 20:46

全栈极简的博客 ruoyi+Hadoop+hbase实现大数据存储查询前言部署Hadoop部署Hbase基于若依进行二次开发最终效果前言有个现实的需求，数据量可能在100亿条左右。现有的数据库是SQL Server，随着采集的数据不断的填充，查询的效率...
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
前端传过来的图片，怎么存储到hbase中 hbase hdfs java 有问必答
2021-08-08 21:47

回答 1 已采纳图片肯定放到一个指定的路径下面，然后数据库里面存储图片的地址，比如图片上传到本地 public Map<String,Object> upload(MultipartFile myIm
Hadoop集群 balance后，Hbase大量dead region server hadoop hbase 有问必答
2022-02-07 11:53

回答 2 已采纳参考网址 https://issues.apache.org/jira/browse/HBASE-12426题主的问题可能与该问题的原因一致，可以尝试通过如下指令进行问题的修复： hdfs dfs
大数据技术之HBase
2023-03-09 15:33

骚戴的博客 大数据技术之HBase
直接将hbase数据存磁盘和存hdfs的区别是什么？ hbase
2021-07-08 10:38

回答 2 已采纳 hdfs和磁盘的区别在于 hdfs从设计上存在分布式高可用可控副本数，Block块等特别，磁盘目前还无法满足，且生态上目前都是兼容hdfs而不是磁盘。存储的设计底层还是数据结构不一样，可以从这方向思
关于厦门大学林子雨的实验 sqoop导入到 mysql中发生的错误 hadoop mysql sqoop 有问必答
2021-12-01 16:09

回答 2 已采纳 File does not exist: hdfs://localhost:9000/usr/local/sqoop/lib/parquet-avro-1.4.1.jar 你最后一行不是有提示了么，文
已经将数据集以csv的形式导入了hive里面怎么实现以下要求啊 hbase hive ubuntu
2023-04-17 14:34

回答 1 已采纳思路：1、建表路径指向你csv数据存放路径2、使用Java或者python语言写代码展现数据[或者使用数据可视化工具：帆软、阿里Quick BI等]
通过BulkLoad快速将海量数据导入到Hbase
2018-11-27 08:52

Hadoop技术博文的博客在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在...
使用hbase导入csv文件报错class不存在，但是lib中又有这个jar包 hbase java 有问必答
2022-01-03 00:41

回答 2 已采纳你确定存在吗？人家说的是hdfs上的，不是本地哦
HBase 超大表迁移、备份、还原、同步演练手册：全量快照 + 实时同步（Snapshot + Replication）不停机迁移方案
2023-12-25 09:30

Laurence　的博客介绍的演练操作源于某真实案例，用户有一个接近 100 TB 的 HBase 数据库，其中有一张超大表，数据量约为数十TB，在一次迁移任务中，用户需要将该 HBase 数据库迁移到 Amazon EMR 上。本文将讨论并演示：使用全量...
Hbase最新官方文档中文翻译与注解1-10|hbase简介与配置信息等
2021-09-22 11:01

涤生大数据的博客一个独立的实例包含所有 HBase 守护进程——Master、RegionServers 和 ZooKeeper——在一个持久化到本地文件系统的 JVM 中运行。这是我们最基本的部署配置文件。我们将向您展示如何使用hbase shellCLI在 HBase 中...
没有解决我的问题, 去提问

悬赏问题

¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100
¥15 关于#hadoop#的问题
¥15 (标签-Python|关键词-socket)
¥15 keil里为什么main.c定义的函数在it.c调用不了
¥50 切换TabTip键盘的输入法
¥15 可否在不同线程中调用封装数据库操作的类
¥15 微带串馈天线阵列每个阵元宽度计算
¥15 keil的map文件中Image component sizes各项意思

如何将存储量很大的txt文档数据导入到hbase当中

4条回答 默认 最新

悬赏问题

4条回答默认最新