impala、hive、hbase整合之后进行数据分析,例如count()会特别慢,大家有什么方法么?

如题,还不如impala整合hive快呢,但数据在hbase中怎么可以提高效率?

0

1个回答

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
实时分析系统以及hbase、hive和impala的区别
1. 什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高
impala查询hbase数据效率问题
之前都是用impala查hive共享的数据,今天测试查了一下hbase的数据,方法很简单,就是hive里建hbase的外部表,用impala查询hive外部表的数据,发现一个问题,相同数据的情况下,查询hbase表数据和hive差别太大,如下图: 同样的数据量: 1、hive内部表数据 2、hive外部表hbase数据 速度根本不是一个数量级的!这一块儿如果真要应用impala查hbase
Hive和HBase的整合原理
Point 1: 配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类。 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可
简单之美 Impala与HBase整合实践
对于复杂的查询统计类需求,如果直接基于HBase API来实现,性能非常差,或者,可以通过实现MapReduce程序来进行查询分析,这也继承了MapReduce所具备的延迟性。
Impala,Hive,Hbase,关系数据库区别
Impala简介 Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。 Impala将相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)用作Apache Hive,为面向批量或实时查询提供熟悉且统一的平台。 Impala不基于MapReduce算法。 它实现了一个基于守...
ambari集成Impala,通过hive查询hbase表报错null
通过浏览器IP+25000或者25020端口访问,查看logs日志,发现zookerper连接配置的参数存在问题,显示连接/hbase,而我们ambari连接的应该是hbase-unsecure,怀疑是配置文件未加载导致。 解决方案:缺少hbase的配置文件hbase-site.xml,将其拷贝的并分发到各个节点。 cp /etc/hbase/conf/hbase-site.xml /etc/...
Impala与HBase整合实践
实现Impala与HBase整合,我们能够获得的好处有如下几个:可以使用我们熟悉的SQL,像操作传统关系型数据库一样,很容易给出复杂查询、统计分析的SQL设计Impala查询统计分析,比原生的MapReduce以及Hive的执行速度快很多我们知道,HBase是一个基于列的NoSQL数据库,它可以实现的数据的灵活存储。它本身是一个大表,在一些应用中,通过设计RowKey,可以实现对海量数据的快速存储...
用Hive、Impala查询Hbase数据
近期有项目需要向Hbase写入数据,为了测试数据写入是否正常,常用Hbase shell查询数据,但是用起来比较麻烦,看到Clouder官网有关于使用Impala查询Hbase的操作说明,做了简单的尝试,记录如下,供大家参考。 环境: CDH 5.10.2、Impala 2.7.0、Hive 1.1.0、Hbase 1.2.0 原理: Hive创建外部表,建立与Hbase表的映射关系,从而...
Impala与Hbase整合用于ETL过程尝试(1)
一、      目标 最近我接到这样一个需求:做一张大宽表(多个字段)的加工、存储,宽表由多个副表join关联生成,目前基于Impala类的sql over hadoop实现,由于其中某一个副表信息变动导致大宽表需要执行回溯,现有的技术框架下就需要全表擦除重入(truncate+insert),代价比较大,能否进行部分字段的更新?我想到hbase存宽表 ,Impal与其结合可通过sql方式进行更
【多数据源连接】-Spring整合Hbase、Impala、Orcale三种数据源
       项目中需要按需连接不同的数据源,原项目默认为mysql连接,现在要添加Hbase、Impala、Orcale三种数据源,以支持现有的查询(属于报表子系统)。 MySql、Orcale、Impala是关系型数据库,可以用bean来配置连接池,方便、快捷的完成数据库访问。而Hbase属于列存储数据库,是一个NoSQL数据库,可存储大量非关系型数据。我们这里用phoenix来连接Hbase...
使用impala/hive查询hbase数据
继续上周的测试,这周终于打通了hive到hbase的查询,这里以hive为例,impala走的是hive查询hbase的路子。     hbase访问方式    Native JAVA  API 最常规的最高效的访问方式 Hbase Shell Hbase的命令行供,以JRuby接口,最简单接入,适合HBase管理
spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)
spark、hive、impala、hbase、gbase在结构化数据方面查询原理对比(含parquet/orc)
用mapreduce程序将hive写数据到hbase慢的解决办法
项目中可能会有将hive的数据同步到hbase的需求,但是有时mapreduce程序写数据会非常慢,也有可能会出现数据倾斜问题。这时就要对mapreduce程序进行优化了。        首先确定调大reduce个数,比如从5个调大到10个,如果还不能有效的加快速度。就需要在mapreduce程序中将hive中大量的空过滤掉,这部分特别耗资源,也会引起数据倾斜。这部分空到hbase中也没用,过滤
Presto、Impala性能比较
下面是Presto、Impala这两种典型的内存数据库的简单测试比较,当然这种内存数据库类似的还有spark sql,这种数据库在大数据量,多表关联查询时,会展现出自己的优势,下面是一组impala和presto的性能对比图: 环境准备:1台32G内存、2台16G内存,没有完全把内存配置饱和 测试数据:hive中3张2000W数据量的表 集群:impala和presro部署在3台机器上
hive 很慢解决办法
hive 很慢:运行一下一下语句:set mapred.child.java.opts=-Xmx1024m;set mapreduce.map.java.opts=-Xmx1310m;set yarn.app.mapreduce.am.command-opts=-Xmx2457m;set mapreduce.reduce.java.opts=-Xmx2620m;...
数据分析:Hive、Pig和Impala
主要是针对Hive、Pig和Impala各自的特点、应用、区分,以及与传统数据库的区别来进行阐述,对于深入了解数据分析工具在实际中的运用有着重要作用。
hadoop完全分布式环境搭建,整合zookeeper,hbase,spark,hive,hue
前期准备工作 1、由于测试环境的所有服务器只在内网访问,所以全部关闭防火墙,省去配置访问规则时间。 service iptables stop 2、集群中包括4个节点:1个master,3个salve,所以节点均安装好jdk,节点之间局域网连接,可以相互ping通。节点IP地址分布如下: IP                            机器名 192.168.2.221...
Hbase 大表快速count
第一种比较简单,但是只适合小表进行count 1.count命令 最直接的方式是在hbase shell中执行count的命令可以统计行数。 [html] view plain copy hbase> count ‘t1′   hbase> count ‘t1′, INTERVAL => 100000   hb
Hive整合HBase 通过Hive读/写HBase中的表
写在前面一: 本文将Hive与HBase整合在一起,使Hive可以读取HBase中的数据,让Hadoop生态系统中最为常用的两大框架互相结合,相得益彰。   写在前面二: 使用软件说明 约定所有软件的存放目录: /home/yujianxin 一、Hive整合HBase原理 Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive
hive 行转列 列转行操作
一、行转列的使用 1、问题 hive如何将 a       b       1 a       b       2 a       b       3 c       d       4 c       d       5 c       d       6 变为: a       b       1,2,3 c  
问题解决:Hive中双count(distinct)过慢的问题
这里说的双count(distinct)是指类似下面的语句 select day,count(distinct session_id),count(distinct user_id) from log a group by day; 如果要执行这样的语句,前提必须设置参数:set hive.groupby.skewindata=true; 我们可以用“空间换时间”的思路解
Hive与Hbase关系整合
近期工作用到了Hive与Hbase的关系整合,虽然从网上参考了很多的资料,但是大多数讲的都不是很细,于是决定将这块知识点好好总结一下供大家分享。 本篇文章在具体介绍Hive与Hbase整合之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Hive与Hbase的整合在业务当中的必要性。 其中在数据存入hbase—>Hive对数据进行统计分析的这个步骤中就涉及到了Hive
HBase导入大数据三大方式之(一)——hive类SQL语句方式
做大数据时,经常需要用到将大量格式化的文本数据导入到hbase中。此处就用到的三种方式:hive类SQL语句方式、importtsv +completebulkload 方式、mapreduce+completebulkload 方式,做下简单示例。其中当属hive类SQL语句方式最简单,首先介绍之: 实例中,我以虚拟话单作为需要导入的数据,步骤如下: 1、首先在hive创建表,创建hba
我的Hadoop、Hbase、Hive、Impala总结
1.怎么查找hadoop_home 看Hive安装的时候需要配置hadoop_home 因为不太懂,查找了一下/etc/profile文件发现没有, 又搜索了一下发现叫hadoop的目录到处都是,不知道哪个是,最后同事说,有bin的目录就是hadoop_home,那么多文件夹一个一个找费劲,而且如果有多个文件夹怎么办, 这里我发现一个简单的办法 输入hadoop version 会打印出
一次实践:spark查询hive速度缓慢原因分析并以此看到spark基础架构
前一段时间数据挖掘组的同学向我返回说自己的一段pyspark代码执行非常缓慢,而代码本身非常简单,就是查询hive 一个视图中的数据,而且通过limit 10限制了数据量。 不说别的,先贴我的代码吧:from pyspark.sql import HiveContext from pyspark.sql.functions import * import json hc = HiveContext
Hive、HBase、Impala的简单对比
1. 什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高
Impala集成hive(填了各种坑之后总结出来的文档)
        1 环境准备 1.1 服务器配置 1.2 环境配置 1.3 Impala安装包下载(不能使用yum命令的情况下) 1.4 Impala安装包下载(可以使用yum命令的情况下) 2 下载安装依赖包(必须安装) 3 安装impala 3.1 安装 bigtop-utils (主、从机都要安装) 3.2 安装impala-2.7.0 (主、从机都要安装)  3.3 安装...
Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较 SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。 首先准备好2000万表记录,作为外部表建好。 然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。 ####################
Hbase、Hive、Impala数据同步简单示例
Hbase +hive+impala数据同步简单示例首先先在hbase创建表hbasehbase shelllistscan 'TEST_INFO'create 'TEST_INFO','d'put ‘TEST_INFO’,’001’,’fields’,’VALUE’,scan 'TEST_INFO'Hivehive创建外部表show databases;show tables;CREATE EX...
大数据提速:Impala能否取代Hive
近日,Cloudera发布Impala实时查询引擎Impala 1.0 beta版,并声称这项革命性的技术能解决Hadoop批处理延迟问题(比原来基于MapReduce的Hive SQL查询速度提升3~30倍),开源的Impala还为Hadoop打开了通向关系型数据库和商业智能工具的大门。 Impala是运行于现有Hadoop基础设施上的实时互动SQL查询引擎,可以让Hdadoop DF
Impala和Hive的关系(详解)
Impala和Hive的关系(详解) Impala和Hive的关系   Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。   与Hive的关系  Impala 与Hive都是构建在Hadoo...
Impala、Hive与HBase整合实践
我们知道,HBase是一个基于列的NoSQL数据库,它可以实现的数据的灵活存储。它本身是一个大表,在一些应用中,通过设计RowKey,可以实现对海量数据的快速存储和访问。但是,对于复杂的查询统计类需求,如果直接基于HBase API来实现,性能非常差,或者,可以通过实现MapReduce程序来进行查询分析,这也继承了MapReduce所具备的延迟性。 实现Impala与HBase整合,我们能够获
浅谈Phoenix在HBase中的应用
一、前言业务使用HBase已经有一段时间了,期间也反馈了很多问题,其中反馈最多的是HBase是否支持SQL查询和二级索引,由于HBase在这两块上目前暂不支持,导致业务在使用时无法更好的利用现有的经验来查询HBase。虽然HBase本身不支持SQL,但业界还是有现成的方案来支持,如Hive、Impala、Phoenix等。众多方案各有各的优势,本文主要对Phoenix作一个大概的介绍。Phoeni...
安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载 1)概述     Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。 2)...
HBase与Hive整合的必要性
Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统,Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具,将我们的sql操作转换为相应的MapReduce jobs,然后在Hadoop上面运行。          HBase全称为Hadoop Database,即HBase是Hadoop的数
日志hadoop大数据分析项目:hive以及hbase是如何入库以及代码实现
apache日志hadoop大数据分析项目: 数据时如何导入hbase与hive的到了这里项目的基本核心功能已经完成。这里介绍一下hive以及hbase是如何入库以及代码实现。首先我们将hbase与hive整合,详细参考about云分析discuz论坛apache日志hadoop大数据项目:hive与hbase是如何整合使用的about云分析discuz论坛apache日志hadoop大数据项目:...
填坑之路:记一次hive外部表查询hbase的long类型数据出现乱码问题
公司有个系统定期向hbase插入数据,记录系统日志。有个字段需要存储long类型的时间戳,具体向hbase插入数据的代码意思大概如下: 构造put对象,插入hbase,先插入一条数据如下: 可以看出来,time字段的值是乱码的,因为hbase默认将值先转为字节码存储。对于long类型的数据,java查询时需要再通过 Bytes.toLong()转换: 我们需要对这张表数据进行
Impala实时刷新同步Hive元数据
背景 通过HIVE对数据进行操作或更新元数据,Impala是无感知的,官方提供了两种手动刷新的方式,分别是INVALIDATE METADATA和REFRESH操作。但是使用起来相当不方便,针对此问题,想到两种简单的应对方案。 方案一 如果ETL处理都是通过脚本执行,那么可以考虑在脚本中添加手动刷新的命令,即某个表的数据已通过脚本处理完成,脚本的最后调用impala刷新一下这个表。这种方式无法处理...
Hive安装及与HBase的整合
介绍Hive的工作原理、配置及与HBase的整合。
impala查询宕机问题解决记录
背景描述: 今天项目组添加了几个新的查询功能,主题还是传送sql语句和条数给impalaservice工具(之前做的一个查询工具),然后获取查询结果。模板做好以后,查询结果总是为空。排除很久才发现是hive数据库服务器宕机。 【1】首先检查sql语句语法是否有错 【2】查看部署impalaservice的服务器里面服务进程是否启动 【3】利用postman发送poast请求给impalas...
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python进行数据分析教程 产品经理需要会什么