【急】hive表数据太多,普通的查询语句都用不了,求解决【应该很简单】

之前做项目用的hive,本来功能什么的都好了,但是测试的时候不知道王里面加了多少数据,可能有5000W条,一张表。
然后我现在用select * from tablename,或者select count(1) from tablename,根本就没有反映,一直在loding

用select * from tablename limit 1,1,就可以出来结果

请问这是杂回事情,怎么优化?是不是内存不足???
求帮忙,今天我一定得解决这个问题阿

我是用java 的jdbc来操作的,换到beeline上执行也是一样,一直loading

0

4个回答

select *是将所有数据load到内存,5000万数据量还是比较大的,加载到内存都是一个比较漫长的过程了。你可以试一下在该表建分区。查询的时候建议指定分区,或者像select * from tablename limit 1,1这样做分页,并且建议用where条件过滤出需要的数据(如果有过滤条件的情况下),尽量避免全表查询。

2
qdf8474
qdf_csdn 回复u011856283: 一般对数据库查询都不建议直接select * 的,特别是大表,因为无论多大的内存都很难加载进那么大的数据量的
一年多之前 回复
u011856283
你好杰米 果然还是内存的问题
一年多之前 回复

1.表是否压缩
2.在命令行测试了吗

1
u011856283
你好杰米 试过了,不行
一年多之前 回复
u011856283
你好杰米 hive 可以压缩么?
一年多之前 回复

表上有主键吗? 没有的话加个主键, 然后在试试.

0

做分区的时候建议按照平台对该表的查询需求来选择分区的类型和粒度

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
这段代码很经典
[code="java"]//添加保存POJO for (int j = 0; j < alObject.size(); ++j) { ...
sql语句查询的表太多,数据太大,影响查询效率 使用视图
sql语句查询的表太多,数据太大,影响查询效率,这时我们可以使用视图。例如:SELECT sfmc AS 省份, Ksh AS 考生号, Zkzh AS 准考证号, Xm AS 姓名, xbmc AS 性别, Csny AS 出生年月, zzmmmc AS 政治面貌, mzmc AS 民族, kslbmc AS 考生类别, bylbmc AS 毕业类别, Zxdm AS 中学...
Java - PAT - L1-027. 出租(天梯赛决赛题目)
下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标,index[0]=2 对应 arr[2]=1,index[1]=0 对应 arr[0]=8,index[2]=3 对应 arr[3]=0,以此类推…… 很容易得到电话号码是18013820100。 本题要求你编写一个程序,为任何一个电话号码生成这
hive小文件造成map多
问题现象:hive查询时生成了大量的map,损耗了过多的cpu资源,参数调配没有生效 问题分析: hive的map数 是由设定的inputsplit size来决定,hive封装了hadoop给出了inputformat的接口,用于描述输入数据的格式,并交由hive.input.format参数所决定,其中包含了两种主要使用类型: 1:HiveInputFormat  2:CombineH...
拼接字符串,格式化数字等
char temp[16]; sprintf(temp, "%i.%i", temperature/10,temperature%10); // printf("===温度==%s==\r\n",temp);
mdmcpq.in文件
急求XP系统中mdmcpq.inf和usbser.sys文件,解决套件无连接!
【SQL】hive——分区处理常用语句
一、基础语句展示所有分区               show partitions TABLENAME删除多个连续分区        alter table TABLENAME drop partition(STAT_DATE>=20180101)
hive修复表数据
由于之前已经导入数据,之后查询不到 可以使用msck repair table xxxxx命令修复!
Hive入门(四):HQL查询语句(一)
select 查询显示表名 查询所有列 查询指定列并指定列别名 查询集合数据类型列 查询Array元素 查询Map元素 查询Struct元素 查询计算列 算数运算符 运算函数 数学函数 聚合函数 表生成函数 Limit函数 嵌套select 语句 case语句 where语句 浮点数比较问题 模糊匹配 like rlike group by select 首先可...
hive解决小文件过多的问题--[常用策略]
哪里会产生小文件 ? 源数据本身有很多小文件 动态分区会产生大量小文件 reduce个数越多, 小文件越多 按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数 小文件太多造成的影响 ? 从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。 HDFS存储太多小文件, 会导致n...
HiveQL常用查询语句where、group by、having、join子句记录
由于hivesql中查询语句时,常用查询条件比较多,所以专门写一篇博文对HiveQL的查询语句进行总结,理清联系和区别。 目录 1. where子句(不能跟别名) (1)比较运算符 (2)like和rlike(正则匹配) (3)逻辑运算符and or not 2. group by子句(每...) 3. having子句(只用于group by之后) 4. join子句(A joi...
hive表中解决乱码策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! 修改编码,设置为utf-8  在 mysql 配置文件/etc/my.cnf(不需要拷贝)中[mysqld]的下面增加以下内容         init_connect='SET collation_connection = utf8_unicode_ci'    init_connect='SET NA...
机器学习笔记(六)-支持向量机SVM
本篇内容主要介绍了SVM支持向量机,分别介绍了Hard-Margin SVM中的凸优化、KKT约束、对偶化问题,而且还介绍了Soft-margin SVM的思想,并对SVM的Hard-Margin模型进行验证。这篇文章就到这里了,欢迎大佬们多批评指正,也欢迎大家积极评论多多交流。
Hive查询语句
一.基本查询 1.全表查询和特定列查询 1.1 全表查询 1.2 选择特定列查询 2.列别名  3.算术运算符 4.常用函数   二.WHERE语句 1.比较运算符  如: 2.逻辑运算符 三.分组 1.group by语句 GROUP BY语句用来与聚合函数(aggregate functions such as COUNT, SUM,...
hive sql遇到的问题
记录下工作中,使用hive sql遇到的问题,和大家共享。 某个字段条件过多,查询条件失效 select * from login where dt='20130101' and (ver !='3.1' or ver !='3.2' or ver != '4.0' or ver != '5.2'); 备注:感谢杨庆荣的指导,这里笔误,其实修改为如下的sql,功能可以实现,该...
PTAL1-027 出租(20 分)算法双版本详解
下面是新浪微博上曾经很火的一张图: 一时间网上一片求救声,急问这个怎么破。其实这段代码很简单,index数组就是arr数组的下标, index[0]=2 对应 arr[2]=1,index[1]=0 对应 arr[0]=8,index[2]=3 对应 arr[3]=0,以此类推…… 很容易得到电话号码是18013820100。 本题要求你编写一个程序,为任何一个电话号码生成这段代码 —— 事...
Hadoop-练习 利用hive进行数据查询
1   准备测试数据  问题1:求各个部门的总工资  问题2:求各个部门的人数和平均工资  问题3:求每个部门最早进入公司的员工姓名 问题4:求各个城市的员工的总工资 问题5:列出工资比上司高的员工姓名及其工资 问题6:列出工资比公司平均工资要高的员工姓名及其工资 问题7:列出名字以J开头的员工姓名及其所属部门名称 问题8:列出工资最高的头三名员工姓名及其工资 问题9:将全体员工按照总收入(工资+...
hive 数据倾斜实际问题中总结
1.数据倾斜原因 a.大表(2.8G)与小表关联(580K) b.大表(2.8G)与大表(3.0G)关联 首先谈论大表与小表的关联导致数据倾斜问题  实例如下: 大表数据格式: 小表数据格式: 关联语句 hive>select  *  from report_tour_spot_detail s join report_tour_msg_detail r  
[Hive]hive分区设置注意事项
1、分区不宜过多 创建分区可以让Hive不必对输入进行全盘扫描,确实可以优化查询。但是使用过多分区会带来两方面的问题: (1)HDFS设计用于存储数百万的大文件,而不是数十亿的小文件。使用过多分区会创建大量的非必须的hadoop文件和文件夹。一个分区对应一个包含多个文件的文件夹。如果指定的表存在数百个分区,则可能每天都会创建好几万个文件。 (2)MapReduce会将一个任务(job)转化成多个任...
Hive表中通过查询插入数据错误(解决!)
1.报错如下: 2.错误原因: 表中字段太多,为了简便使用了 select *,导致查询结果中的列数不匹配。 3.解决办法: 将 select * 改为需要的字段即可。
Hive之数据查询
Hive为大规模的数据分析提供了一种类SQL的查询语言,在数据仓库中是一种很常见的工具。1. 排序和聚合排序使用常规的ORDER BY来完成,Hive在处理ORDER BY请求时,并行排序,最终产生一个全局排序结果。如果全局有序不是必须的,那么可以使用Hive的非标准扩展SORT BY,它返回的是一个局部有序的结果,每个Reducer内部有序,每个Reducer产生一个有序的文件。有时候我们想控制数
hive查询语句
Hive查询 1、hive模糊搜索表 show tables like '*name*'; 2、查看表结构信息 desc formatted tablename; desc table_name 3、查看分区信息 show partitions tablename; 4、根据分区查询数据 select table_coulm from tablename where partit
Hive分区查询
显示表分区:hive> show partitions table_name;根据表分区查询数据:hive> select * from table_name where partition_date='2018-04-10' ; 
Hadoop学习(十三)——hive的常用HQL语句
笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。 我的公众号为:livandata
Hive入门(四):HQL查询语句(二)
join music表 M-0001,Valder Fields,S-0001,L-0001 M-0002,A Step You Can't Take Back,S-0002,L-0002 M-0003,For You,S-0003,L-0003 M-0004,Life is like a Boat,S-0003,L-0003 M-0004,Fake Song,<unknow>,&
其他用户登录hive问题
其他用户登录hive cli 报以上错误解决方法: 在hive-site.xml找到以下参数并调整权限 hive.exec.local.scratchdir  --本地目录    chmod 666 该目录即可 hive.exec.scratchdir  ----对应hdfs目录    hadoop fs -chmod 666 该目录即可
Hive实现词频统计
Hive中提供了类似于SQL语言的查询语言——HiveQL,可以通过 HiveQL语句快速实现简单的 MapReduce统计, Hive 自身可以将 HiveQL 语句快速转换成 MapReduce 任务进行运行,而不必开发专门的 MapReduce 应用程序,因而十分适合数据仓库的统计分析。 通过一个简单的词频统计来初步认识hive1.本地创建两个文本文件echo “hello world”&g...
mysql大表的解决方案,及Hive分页查询
先说一下遇到的问题,然后给出自己的解决方案,虽然不一定是最佳的解决方法,但是目前确实解决了公司的大表数据问题,如果其他小伙伴有更好的解决方法,也请多多交流,给出自己的解决方法。 目前所有的数据和工具组件都是基于腾讯云搭建和管理,先说下我们遇到的情况: 1.mysql表查询数据量较大(最大的一张表已经达到33亿条数据,整个mysql已经达到2.9T的数据存储), 2.mysql表每日新增数据量...
javabean求解旧错
javabean+jsp问题,求纠错。急/
hive ---- hive常见查询语句练习(有一定难度的)
练习题和sql语句 基础sql语句 统计每个学生的总分。 统计出学号和总分    select s_id , sum(s_score) as zf  from  score  group  by s_id 上表结果和stuent做join连接 select stu.s_name,zf.ss from (select s_id , sum(s_score) as ss from s...
hive sql语句查询
数据库相关操作 Hive配置单元包含一个名为 default 默认的数据库. create database [if not exists] <database name>;---创建数据库 show databases; --显示所有数据库 drop database if exists <database name> [restrict|cascade]; --删除数据库,默认情况下,hive不允许删除含有表的数据库,要先将数据库中的表清空才能drop,否则会报错 --加入cascade关键字,可以强制删除一个数据库,默认是restrict,表示有限制的 eg. hive> drop database if exists users cascade; use <database name>; --切换数据库
hive 同一个表不同分区的数据求和
业务表如下:hive> desc sc_kekaoxing; OK id string 可靠小表id car_id string car表id month strin
从hive数据表查询数据导入到mysql的一般步骤
1、hive执行查询把数据保存到本地的文件中 hive_sql=&quot;SELECT * from table1 &quot; hive -i $base/init.sql -e &quot;$hive_sql&quot; &amp;gt; $base/date.data  - i 引入hive查询参数的设置,map、reduce的个数,数据库的选择等;  - e 执行写好的select查询 2、把从hive中查询出来的数据导入到MyS...
hiveshell不能执行select语句问题
最近碰到一个很玄学的问题,就是我的CDH集群中部署的hive,在hue上可以执行hive查询语句,但是到hiveshell中不能执行!废话不多说直接看报错图吧 猛的一看以为缺啥jar包,但是想想不应该啊,我用cludera CDH部署的,然后带着这个问题去问度娘,度娘告诉我说不hive版本与hadoop版本不一致,我当时是崩溃的,不应该啊,我cdh、 部署不存在这个问题的。然后各种求教
Hive中分区表及陷阱
Hive中分区表及陷阱 分区表 分区表实际就是对应hdfs文件系统上的的独立的文件夹,该文件是夹下是该分区所有数据文件。 分区可以理解为分类,通过分类把不同类型的数据放到不同的目录下。 分类的标准就是分区字段,可以一个,也可以多个。 分区表的意义在于优化查询。查询时尽量利用分区字段。如果不使用分区字段,就会全部扫描。 在查询是通过where子句查询来...
truncate——删除hive表中的数据
       在某些情况下,我们需要在不删除表的情况下,删除表中的数据。像Oracle、MySQL数据库,可以使用如下语言删除表中的数据: DELETE FROM tableName;         在Hive中,上面的语句就不那么好用了,我们可以使用truncate来删除相关表中的数据,命令如下: truncate table tableName;         注意:trunc...
Hive表数据的查询
文中的两张表emp和dept: emp数据如下: 7499 ALLEN SALESMAN 7698 1981-02-20 1600.0 300.0 30 7521 WARD SALESMAN 7698 1981-02-22 1250.0 500.0 30 7566 JONES MANAGER 7839 1981-04-02 2975.0 0.0 20 7654 MA...
L1-009. N个数求和
L1-009. N个数求和 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 本题的要求很简单,就是求N个数字的和。麻烦的是,这些数字是以有理数“分子/分母”的形式给出的,你输出的和也必须是有理数的形式。
HIVE删除外部表
测试 使用truncate命令删除外部表: truncate table mytable; #FAILED: SemanticException [Error 10146]: Cannot truncate non-managed table mytable. (state=,code=0) 分析 查看表结构 1. describe extended tablename 2. ...
hive数据倾斜优化策略
友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师! Hive数据倾斜 Group By 中的计算均衡优化     1.Map端部分聚合       先看看下面这条SQL,由于用户的性别只有男和女两个值 (未知)。如果没有map端的部分聚合优化,map直接把groupby_key 当作reduce_key发送给reduce做聚合,就会导致计算不均衡的现...