impala对百万级数据group by速度问题？

请问以下impala查询该如何优化，查询速度有点慢（5s以上）
impala查询语句：
select case when t.nl>=18 and t.nl<=25 then '18-25岁'
when t.nl>=26 and t.nl<=32 then '26-32岁'
when t.nl>=33 and t.nl<=40 then '33-40岁'
when t.nl>=41 and t.nl<=48 then '41-49岁'
when t.nl>=49 and t.nl<=55 then '49-55岁'
end as nld,count(1) jls
from
(select
case when length(sfzh)=18 then
cast(from_unixtime(unix_timestamp(xxrq,'yyyy-MM-dd'),'yyyy') as int)-cast(substr(sfzh,7,4) as int)
else cast(from_unixtime(unix_timestamp(xxrq,'yyyy-MM-dd'),'yyyy') as int)-cast(concat('19',substr(sfzh,7,2)) as int)
end as nl,xxrq,sfzh from hbase_impala.impala_table39119_1550771711308
where sfzh is not null and year(now())-year(xxrq) <=4
) t
where t.nl>=18 and t.nl<=55 group by nld order by nld;

explain结果：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
憧憬blog 2023-03-15 08:50
关注
根据您提供的信息，我们可以从以下几方面来优化该impala查询语句的速度：

索引优化

在impala查询语句中，where子句中的字段nl和sfzh都应该建立索引，以提高查询速度。您可以通过以下命令来创建索引：

CREATE INDEX idx_nl ON impala_table39119_1550771711308(nl);

CREATE INDEX idx_sfzh ON impala_table39119_1550771711308(sfzh);

减少group by列

在查询语句中，group by列过多会导致查询速度变慢。因此，您可以尝试减少group by列以提高查询速度。在该查询语句中，我们可以尝试用别的方式来汇总数据，例如使用order by来代替group by。

数据压缩

对于百万级数据，可以使用数据压缩来提高查询速度。Impala支持多种数据压缩类型，您可以根据数据特点选择适合的压缩算法来提高数据读取效率。

使用硬件加速

可以使用硬件加速来提高查询速度，例如在集群中添加更多的物理节点、更高效的网络互连等方式。

综上所述，我们可以通过索引优化、减少group by列、数据压缩和使用硬件加速来优化该impala查询语句的速度。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【大数据】请问impala怎么用命令行连接？提示找不到命令 hadoop hive linux 大数据
2018-04-24 10:01

回答 2 已采纳 impala启动 # service impala-state-store start # service impala-catalog start # service impala-serve
python连接impala数据库问题 cloudera python 有问必答
2022-03-19 18:44

回答 2 已采纳为啥你的连接， port 是21050 不是 8091是网络管理员重新定向了？
impala相关问题 sql wireshark 数据库
2021-12-06 16:26

回答 1 已采纳会出现报错信息的
IMPALA 查询优化之元数据
2023-07-12 08:12

humanity11的博客 impala 查询优化，元数据刷新
使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
问一下我这个工作到底是什么性质的？ hadoop 数据仓库数据库开发
2022-08-05 14:31

回答 2 已采纳是的，基本就是离线数仓的岗位了
通过CDH安装的impala数据库，想要在其他设备进行访问可以实现吗？ linux 数据库
2022-01-26 17:09

回答 1 已采纳安装好设置一下不都是可以访问的啊，兄弟啊
Apache Impala View、order by、group by、having子句、with子句、limit、offset、distinct
2019-12-10 21:34

大数据流浪法师的博客视图仅仅是存储在数据库中具有关联名称的Impala查询语言的语句。它是以预定义的SQL查询形式的表的组合。视图可以包含表的所有行或选定的行。 Create View IF NOT EXISTS view_name as Select statement 创建视图...
impalad服务启动不了，如何解决？ ambari hadoop 大数据
2018-01-16 02:35

回答 2 已采纳最后一个图，那个域名和端口连不上，要么是网络问题（国外网站特别如此，你懂的），要么是服务器地址或者端口无效。
impala查询的，有很多sql都用了这个语句，我想知道用处是啥？ cloudera java 有问必答
2022-03-14 10:41

回答 3 已采纳分为四种情况，画一下图就明显了。条件的意思是，你传入的开始时间和结束时间，和数据库中的开始时间和结束时间是否有交集，只要有交集，条件就成立。
当除数为0时我却得不到“cannot divide by zero.” c语言
2022-04-04 23:44

回答 1 已采纳 if(b==0)
Impala在腾讯金融大数据场景中的应用
2021-10-18 15:38

过往记忆的博客导读：在腾讯金融场景，我们每天都会产生大量的数据，为了提升分析的交互性，让决策更加敏捷，我们引入了Impala来解决我们的分析需求。所以，本文将和大家分享Impala在腾讯金融大数据场景中...
java使用Kerberos一段时间后过期了，怎么办？ hadoop hdfs java 大数据
2018-05-03 02:34

回答 3 已采纳票据有过期时间的设置crontab 定期去刷新就好了。或者你把过期时间设置很大
数据中台建设方案-基于大数据平台
2023-03-14 16:42

FRDATA1550333的博客通过对客户大数据应用平台服务需求的理解，根据建设目标、设计原则的多方面考虑，建议采用星环科技Transwarp Data Hub（TDH）大数据基础平台的架构方案，基于Transwarp Operating System（简称TOS）云平台方式部署...
轻量级大数据计算引擎esProc SPL,Hadoop Spark太重
2022-08-16 08:00

当年的春天的博客 Hadoop/Spark是源自头部互联网企业的重型解决方案，适合需要有超大规模集群...这种情况下，轻量级的大数据计算引擎SPL是首选，投入很低的成本，就可以做到技术轻、使用简便，而且还能提高开发效率、达到更高的性能。...
没有解决我的问题, 去提问

悬赏问题

¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 关于#python#的问题：自动化测试