如何将存储量很大的txt文档数据导入到hbase当中

我现在要写一个程序，将第三方导出的txt文件内容读取并放到hbase当中。
由于txt文档非常大（超过10G），我初步思路是通过单线程读取到一个线程安全的容器当中，然后再利用多线程向hbase中写入。
请问有没有什么更好的思路，谢谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
joeywen 2014-12-29 15:32
关注
方案一：
1、在Linux环境利用split命令把文件分块；
2、多线程对多文件读取写入HBase
方案二：
1、要看文件的格式是怎么样的，你想存HBase的格式怎样的
2、把文件按照格式分割建表存入Hive
3、利用HiveIntegrate 工具把Hive映射到HBase 表
方案三：
1、HBase现已支持MapReduce，把文件先load到HDFS，利用命令：hdfs fs -copyFromLoad xxx xxxxxx
2、编写MapReduce程序，读取存入HDFS的文件，程序会自动split文件，然后有多个mapper读取
然后在reduce中把数据写入hbase。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

ruoyi+Hadoop+hbase实现大数据存储查询
2023-11-30 20:46

全栈极简的博客 ruoyi+Hadoop+hbase实现大数据存储查询前言部署Hadoop部署Hbase基于若依进行二次开发最终效果前言有个现实的需求，数据量可能在100亿条左右。现有的数据库是SQL Server，随着采集的数据不断的填充，查询的效率...
(完整)数据中台之结构化大数据存储设计.docx
2022-05-31 17:14

6. **结构化大数据存储**：如HBase、阿里云Tablestore，支持高吞吐写入和大规模数据存储，适合在线查询和历史数据归档。 7. **批量计算**：如Hadoop MapReduce、Spark，进行大规模离线数据分析。 8. **流计算**：...
大数据领域 HBase 与其他存储系统的对比分析
2025-04-28 14:50

程序员光剑的博客随着大数据技术的普及，企业面临的数据类型（结构化、半结构化、非结构化）和规模（TB到EB级）呈指数级增长。不同存储系统在数据模型、扩展性、一致性、查询能力等方面差异显著，导致“如何选择存储系统”成为架构...
大数据领域HBase的数据倾斜问题解决之道
2025-06-28 00:05

AGI大模型与大数据研究院的博客本文旨在全面解析HBase数据倾斜问题，提供从理论到实践的完整解决方案。涵盖范围包括数据倾斜的成因分析、诊断方法、解决方案以及预防措施。文章首先介绍HBase基础架构和数据倾斜概念，然后深入分析问题成因，接着...
大数据技术之HBase
2023-03-09 15:33

好运仔dzl的博客 大数据技术之HBase
大数据领域HBase的数据迁移与同步方法
2025-12-14 19:25

AI原生应用开发的博客集群升级：从HBase 1.x升级到2.x，需要将旧集群数据迁移到新集群；跨机房容灾：主集群在北京，需要将数据同步到上海的灾备集群；业务拆分：原集群承载多个业务，需将某业务数据迁移到独立集群；扩容缩容：旧集群磁盘...
探索大数据领域HBase的跨语言数据交互方案
2025-09-08 01:50

AI应用架构探索者的博客 HBase作为大数据存储的核心组件，需要支持不同语言之间的数据交互，以满足多样化的业务需求。本文的目的就是探索HBase的各种跨语言数据交互方案，详细介绍其原理、实现步骤和应用场景，范围涵盖了常见的编程语言如...
通过BulkLoad快速将海量数据导入到Hbase
2018-11-27 08:52

Hadoop技术博文的博客在第一次建立Hbase表的时候，我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到Hbase中，或者通过MR方式等。但是这些方式不是慢就是在...
剖析大数据领域HBase的网络通信协议
2025-06-16 15:15

AI大数据智能洞察的博客 HBase作为大数据领域中一款重要的分布式列式数据库，广泛应用于海量数据的存储和处理。其网络通信协议是保证各个组件之间高效、稳定通信的关键。本文的目的是深入剖析HBase的网络通信协议，详细讲解其原理、实现和...
HBase与Hadoop生态集成：构建完整大数据解决方案
2025-07-06 10:12

AI大数据智能洞察的博客想象一下，你是一家电商公司的技术负责人：每天有10亿用户访问网站，产生PB级...我们会覆盖HBase与HDFS的存储集成、与MapReduce/Spark的计算集成、与ZooKeeper的协调机制，以及实际项目中的部署和优化方法。核心概念。
大数据之HBase
2022-04-11 00:17

佳佳乐2503的博客逻辑上，HBase 的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从 HBase 的底层物理存储结构（K-V）来看，HBase 更像是一个 multi-dimensional map。 1.2.1 HBase 逻辑结构 1.2.2 HBase 物理...
HBase与Prometheus：监控指标收集存储
2025-05-04 18:11

程序员光剑的博客在当今的分布式系统和云计算环境中，监控指标的收集和存储至关重要。它可以帮助运维人员实时了解系统的运行...本文将按照以下结构进行阐述：首先介绍HBase和Prometheus的核心概念与联系，包括它们的架构和工作原理；
Hbase最新官方文档中文翻译与注解1-10|hbase简介与配置信息等
2021-09-22 11:01

涤生大数据的博客一个独立的实例包含所有 HBase 守护进程——Master、RegionServers 和 ZooKeeper——在一个持久化到本地文件系统的 JVM 中运行。这是我们最基本的部署配置文件。我们将向您展示如何使用hbase shellCLI在 HBase 中...
大数据组件之Hbase（整体分享)
2022-09-09 17:28

我要用代码向我喜欢的女孩表白的博客所以作为我最喜欢的库之一，写了很多文档，但是没有一个汇总，这篇就是我对hbase的汇总吧。作为一个组内分享使用，目的是，让同事们，看完之后能知道Hbase的前因后果，以及使用场景，选型时的瓶颈，以及能够使用。...
Hadoop大数据技术学习与实践项目-包含HDFS分布式文件系统MapReduce编程模型Zookeeper协调服务HBase列式数据库Hive数据仓库Sqoop数据迁移.zip
2025-08-10 02:43

它能够将关系数据库中的数据高效导入到Hadoop的HDFS中，也可以将数据从HDFS导出到外部数据源，如关系数据库等。这些技术的结合，使得Hadoop能够为大数据处理提供一个全面的解决方案，不仅包含了数据的存储、管理，...
搭建大数据大一统环境.zip
2023-07-29 17:18

在构建大数据一统环境的过程中，我们通常涉及到一系列关键组件的集成和配置，这些组件共同构成了一个高效、稳定的大数据处理平台。"搭建大数据大一统环境.zip"这个压缩包文件显然是为了指导用户如何构建这样的环境，...
大数据基础课第二课 Hive&HBase详解
2022-04-27 10:32

办公模板库素材蛙的博客 Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapReduce ...
大数据领域HBase的性能调优工具推荐
2025-09-26 22:23

AI算力网络与通信的博客批量导入：用Bulk Load（适合大数据量导入）；复杂查询：用Coprocessor（适合减少数据传输）；非行键查询：用Phoenix（适合需要SQL和二级索引的场景）。资源调度：用YARN（适合多集群共享资源的场景）；HDFS优化。
基于大数据的音乐数据中心平台（附：源码课件项目部署文档）
2022-05-17 14:35

搞程序的菇凉的博客音乐数据中心数仓综合项目主要是针对公司过去收集到的用户点播、购买音乐等数据（包括业务数据与用户行为数据），为公司业务更健康的发展提供决策服务支持（BI商业决策）。数据中心项目中包含业务系统数据...
HBase数据批量导入与操作工具_该项目是一个可直接打包为可执行JAR文件的HBase集成应用支持通过命令行参数快速启动实现高效的数据处理流程核心功能包括完整的HBase增删.zip
2025-11-19 14:06

批量导入功能是该工具的另一大亮点，它支持用户将大量数据一次性导入到HBase中，这对于数据仓库的构建以及大规模数据分析等应用场景尤为重要。在数据量极大的情况下，批量导入能够显著缩短数据加载时间，提高整体的...
没有解决我的问题, 去提问

如何将存储量很大的txt文档数据导入到hbase当中

4条回答 默认 最新

4条回答默认最新