hadoop-hbase作为实时接口返传数据时如何保证数据高可用性？

各位老师，单位现在要引入hbase数据库作为数据存储，并将数据通过接口方式返回给查询方。目前的场景是这样的，数据每日全量加载，以每日最新的数据为有效数据，数据量在500万左右。

前期做了一定尝试和探索，做出了以下调整：

rowkey是用户id，查询方通过用户id直接查询。由于一开始没有加入分区，发现频繁写入数据后，hbase的数据会出现短暂的不可读，报region is not online的错误。从网上查询后，说是hbase数据量到一定程度，会自动分裂，针对此问题，我们强制在建表时设定了 no split 策略，并按照首位进行 {10，20，30，。。。}的预分区。
数据是每日全量加载，通过定时任务将所有数据put到hbase。但是每日的数据和历史的数据rowkey不完全一致，比如新增用户或者失效用户。新增用户其实问题不大，直接put到库里就可以。但是失效用户其实应该是被删除的。考虑到尽量保证数据24h小时可用，目前的想法是根据时间戳和加载时间做一下判断，单独启一个删除的定时任务，在每日加载做完后，执行这个删除任务，将过期数据删除掉。

针对上述场景，目前我们遇到了一下问题：

分裂策略方面，no split策略目前在查询层面表现还是比较稳定的，不会出现region is not online的问题，但是这种方法可持续强吗？有更好的方法吗？
删除方面，我们在测试的时候试过频繁写入并按照时间戳标签删除，这期间出现过一段短时间的数据不可读，一直报节点不可用，大概过了5分钟恢复了一部分数据的可读性，又过了几分钟大部分数据可读了。网上搜了下，多是说这期间hbase在做compact操作，导致数据的短时间不可用。这个compact策略我们怎么才能很好的避免其对数据可读性的影响？
另外就是删除操作的具体实现，我们目前每次做删除操作时，会全表scan所有数据找到rowkey，再根据rowkey和时间戳去表中删除，这种思路感觉有些绕路，每次scan的速度也不是很快。应对这种删除场景各位老师有什么好的实现思路吗？

新人第一次提问，不周之处还望多多包涵，在此先谢过大家了。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2020-08-28 11:05
关注
https://blog.csdn.net/qq_32579557/article/details/80450595

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

编译Hadoop包时出现的报错，如何解决？ hadoop
2022-05-20 13:43

回答 2 已采纳从报错来看，是一个循环依赖的问题，类似于 A 依赖 B， B依赖C ，C依赖A；可以先排查一下jar的依赖！
Hadoop无法访问网页yarn hadoop103-8088 hadoop 大数据数据仓库有问必答
2023-04-16 20:08

回答 2 已采纳可能是由于Hadoop103节点没有启动 yarn没有启动成功
搭建高可用hadoop时出错：HA is not enabled for this namenode hadoop 大数据
2021-11-03 17:31

回答 1 已采纳 hdfs-site.xml 配置贴出来看看
大数据组件-Flume高可用集群搭建
2024-03-28 16:38

Flume是一个分布式、可靠和高可用性的数据采集工具，用于将大量数据从各种源采集到Hadoop生态系统中进行处理。在大型互联网企业的数据处理任务中，Flume被广泛应用。 Flume逻辑上分三层架构：agent，collector，...
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
Hadoop-HBase
2021-12-01 10:53

JanuaryFM的博客 Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据（列存 ...
hadoop进行数据分析缺少数据的输出 hadoop 大数据
2022-07-09 16:18

回答 1 已采纳问题解决了，不好提供数据源，是201.42的虚拟机实验Mapperpackage com.mystudy.hadoopPro; import java.io.IOException;import ja
Hadoop+hbase+Scala怎么搭建！！急 hadoop hbase scala 有问必答
2022-03-04 23:00

回答 2 已采纳可以参考下这个搭建教程，希望对你有帮助： Spark+Hbase+Hadoop+Scala模拟完全分布搭建教程 - 简书其实网上已经有好多
hadoop1.x和2.x架构上的区别? hadoop 大数据数据挖掘
2022-10-26 11:41

回答 1 已采纳（1）Hadoop 1.0Hadoop 1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，Ma
Hadoop大数据平台（下）hdfs高可用、Yarn高可用、hbase高可用
2022-03-30 19:00

一叶存秋的博客一、Hadoop高可用 1、zoomkeeper集群部署 2、hdfs高可用一、Hadoop高可用在典型的 HA 集群中，通常有两台不同的机器充当 NN。在任何时间，只有一台机器处于 Active 状态；另一台机器是处于 Standby ...
centos7配置完jdk、zookeeper、hadoop、hbase集群之后出现hbase启动找不到jdk路径的情况 hadoop hbase zookeeper
2023-04-12 20:16

回答 1 已采纳检查一下linux环境变量配置是否配置了JDK,没有的话加上,可能是环境变量的问题,或者jdk版本过低,改为jdk1.8试一下
数分-理论-大数据4-HBase
2022-01-13 15:17

yxyibb的博客文章目录数分-理论-大数据4-HBase（分布式数据库）1知识点2具体内容2.1Hadoop局限2.2简介2.3HBase数据模型2.3.1模型2.3.2相关概念2.3.3数据坐标2.3.4概念视图2.3.5物理视图2.3.6面向列存储2.4实现原理2.4.1HBase功能...
从零开始大数据--Hadoop、HDFS、MapReduce、HBase、Hive
2020-05-21 15:58

MOKE_XR的博客文章目录概述HadoopHDFSHBase实现原理Regin服务器原理HBase安装与使用NoSQL数据库MapReduceHive 概述 IT领域每隔十五年就会迎来一次重大变革： 1980：个人计算机 1995：互联网 2010：物联网、云计算和大数据 信息...
没有解决我的问题, 去提问

悬赏问题

¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler

hadoop-hbase作为实时接口返传数据时如何保证数据高可用性？

1条回答 默认 最新

悬赏问题

1条回答默认最新