hive on spark 和 spark sql 有啥区别?

hive on spark 和 spark sql 都是用spark引擎计算,个人觉得没啥区别。
网友说:
hive on spark 是cloudera公司开发的,spark sql是spark开发的,这个算是区别吗?
写法不同?

请大神解答。

0

查看全部1条回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
面试题:Hive on Spark与SparkSql的区别
Hive on Spark与SparkSql的区别 hive on spark大体与SparkSQL结构类似,只是SQL引擎不同,但是计算引擎都是spark! 核心代码 #初始化Spark SQL #导入Spark SQL from pyspark.sql import HiveContext,Row # 当不能引入Hive依赖时 # from pyspark.sql import SQLCont...
Spark 和 Hive之间的区别
大概区别也就是:两个不同的sql翻译引擎吧!正如如下图片中所说的! http://blog.csdn.net/dax1n/article/details/56009813
大数据_hive和sparksql的对比
spark sql可以使用hive里面的表,并做操作,并且会很快 但是需要做如下配置 1.hive-site.xml hive的元数据配置文件要拷贝到spark的conf路径下 2.spark的启动要加上--jars mysql连接jar包的路径 如果还是出现错误: Exception in thread "main" java.sql.SQLException: No sui...
Spark之UDF、UDAF详解
对于一个大数据处理平台而言,倘若不能支持函数的扩展,确乎是不可想象的。Spark首先是一个开源框架,当我们发现一些函数具有通用的性质,自然可以考虑contribute给社区,直接加入到Spark的源代码中。我们欣喜地看到随着Spark版本的演化,确实涌现了越来越多对于数据分析师而言称得上是一柄柄利器的强大函数,例如博客文章《Spark 1.5 DataFrame API Highlights: D...
hive和spark-sql计算stddev的结果差异
hive和spark-sql中的标准差计算方式
Spark SQL和Hive使用场景?
作者:狗叔 链接:https://www.zhihu.com/question/36053025/answer/121404733 来源:知乎 著作权归作者所有,转载请联系作者获得授权。 Hive是什么?一个建立在分布式存储系统(这里指HDFS)上的SQL引擎。 为什么要有Hive呢?因为有了Hadoop后,大家发现存储和计算都有了,但是用起来很困难。去厂商那里一看,清一色Ora
Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较 SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。 首先准备好2000万表记录,作为外部表建好。 然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。 ####################
分析挖掘(大数据):hive、impala、 Spark MLlib概述、原理
hiveHive是一个构建于Hadoop顶层的数据仓库工具,支持大规模数据存储、分析,具有良好的可扩展性。某种程度上可以看作是用户编程接口,本身不存储和处理数据。依赖分布式文件系统HDFS存储数据,依赖分布式并行计算模型MapReduce处理数据。定义了简单的类似SQL 的查询语言——HiveQL,用户可以通过编写的HiveQL语句运行MapReduce任务,可以很容易把原来构建在关系数据库上的数...
SparkSQL与Hive的应用关系
Spark生态圈 Spark是基于scala语言产生的,因此有关spark中的各大编程应用也基本跟scala脱不开关系,但是好在spark的平台化做的不错,目前可支持python及R等语言的应用,这些得益于sparkSQL组件的存在,整个spark的结构组件如下如所示: 关于spark的组件功能描述不多说,可以参考博客spark入门系列及 官方资料等,保证有个初步的印象。 SparkSQL在
同一个sql 在Hive和spark-sql 跑出结果不一样记录
表Schema hive> desc gdm.dim_category; name string 分类名称 org_code string ...
Spark技术体系与MapReduce,Hive,Storm几种技术的关系与区别
大数据体系架构: Spark内存计算与传统MapReduce区别: SparkSQL与Hive的区别: SparkSQL替换的是Hive的查询引擎,Hive是一种基于HDFS的数据仓库,并且提供了基于SQL模型的,针对存了大数据的数据仓库,进行分布式交互查询的查询引擎,所以SparkSQL暂时并不能完全替代Hive,实际上,在生产环境中,SparkSQL也是针对Hive数据仓库中...
spark是什么?spark和MapReduce的区别?spark为什么比hive速度快?
spark是什么? spark是针对于大规模数据处理的统一分析引擎,通俗点说就是基于内存计算的框架 spark和hive的区别? 1.spark的job输出结果可保存在内存中,而MapReduce的job输出结果只能保存在磁盘中,io读取速度要比内存中慢; 2.spark以线程方式运行,MapReduce以进程的方式运行,进程要比线程耗费时间和资源; 3.spark提供了更为丰富的算子操...
spark基础之Spark SQL和Hive的集成以及ThriftServer配置
如果希望Maven编译Spark时支持Hive,需要给定-Phive -Phive-thriftserver。比如比如:mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-Phive -Phive-thriftserver -DskipTests clean package   一 Spark SQL和Hive集成 1.1 将hive的配置文件hiv
Presto与Spark SQL查询性能比较
1. 数仓环境 指标名称 指标值 数据总量 24T 分区数量 24 存储类型 Text Spark SQL版本 Pres同版本 2. 分页查询 所有的计算时间都以秒为单位,执行的SQL语句如下: select * from mydb where year='2018' and month='09' and day='09' and remote_addr='...
spark从入门到放弃三十二:Spark Sql(5)hive sql 简述
文章地址:http://www.haha174.top/article/details/256688 1 简述 Spark Sql 支持对Hive 中存储的数据进行读写。操作Hive中的数据时,可以创建HiveContext,而不是SqlContext.HiveContext 继承自SqlContext,但是增加了在Hive元数据库中查找表,以及用HiveQl 语法编写sql功能,除了s...
Spark和Hive的ANSI SQL支持情况
Spark 2.0.x支持的SQL: ----------------- Spark SQL2003支持情况:社区目前主要是支持缺少的大功能subquery,细节功能主要是IBM的人在系统地添加(https://issues.apache.org/jira/secure/Dashboard.jspa?selectPageId=12326761)。 具体缺少的2003细节功能可查看
hiveudf和sparkudf开发应用和对比
udf:user define function:用户自定义函数 hive中udf的开发和运用非常普遍 hive中的udf都放在-i的初始化文件里面。所以hive的udf弄好了和hive的内置函数是一样的,但是spark中就不行,因为它是在代码里面嵌入进去,所以不通用。 sparksql里udf开发用的不多,原因有2: 1,无法固化,只能在每个程序内使用,所以无法其他作业复用。如果每个应用
spark sql hive小文件优化
sparksession.sqlContext.setConf("hive.merge.mapfiles","true") sparksession.sqlContext.setConf("mapred.max.split.size","256000000") sparksession.sqlContext.setConf("mapred.min.split.size.per.node","192.
Spark SQL & Spark Hive编程开发, 并和Hive执行效率对比
Spark SQL也公布了很久,今天写了个程序来看下Spark SQL、Spark Hive以及直接用Hive执行的效率进行了对比。以上测试都是跑在YARN上。   首先我们来看看我的环境: 3台DataNode,2台NameNode,每台机器20G内存,24核数据都是lzo格式的,共336个文件,338.6 G无其他任务执行 如果想及时了解Spark、Hadoop或者Hbase
Spark SQL外部数据源综合使用(Hive和MySQL进行Join)
前置文章: Spark SQL External Data Source 产生背景 & 概述 & 目标 & 使用 Spark SQL整合Hive使用 先在MySQL中创建数据库、表: mysql> create database spark; mysql> use spark; mysql> CREATE TABLE DEPT( DEPTNO i...
通过spark sql创建HIVE的分区表
今天需要通过导入文本中的数据到HIVE数据库,而且因为预设该表的数据会比较大,所以采用分区表的设计方案。将表按地区和日期分区。在这个过程出现过一些BUG,记录以便后期查看。 spark.sql("use oracledb") spark.sql("CREATE TABLE IF NOT EXISTS " + tablename + " (OBUID STRING, BUS_ID STRING,R...
hive 和spark sql 中日期相关使用技巧(一)
hive 和spark sql 中日期相关使用技巧 常用日期/时间相关字段、类型、及示例: 类型包括:BIGINT,TIMESTAMP和STRING 下面是这几种类型之间相互转换的方法: BIGINT转TIMESTAMP:from_unixtime(time/1000) TIMESTAMP转BIGINT:unix_timestamp(time)*1000 BIGINT转STRING(y...
SparkSQL与Hive on Spark的区别与联系
简要介绍了SparkSQL与Hive on Spark的区别与联系 一、关于Spark 简介 在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。 架构 Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。 Spark特点 Spark可以部署在
spark sql hive批量导入文本文件
在很多情况下,会需要将批量生成(如按天生成的记录)导入到HIVE中。针对这种应用场景,进行实验。 首先需要进行文件目录的遍历,借助SCALA强大的函数式编程能力,利用ARRAY中的MAP函数进行操作即可。 如函数如下: def LoadIntoHive(sc:HiveContext,dir:String):Unit=        {              var cdrDi
Spark-sql与hive的结合环境配置
转:zx老师 ######################################## alter database hive character set latin1; ALTER TABLE hive.* DEFAULT CHARACTER SET latin1; ######################################## 1.安装hive C
spark sql 使用hive作为数据源
本来是很简单的一件事,代码也不复杂,如下: 代码: public class LocationFromHiveDataSource {     @SuppressWarnings("deprecation")     public static void main(String[] args) {         // 首先还是创建SparkConf         SparkCo
sparksql和mysql性能比较
以下是在各个数据量级针对同个查询语句的消耗时间 select type,count(*) as count from test group by type order by count desc;   mysql 600W 3s sparksql 550W 5s   mysql 1000W 5.4s sparksql 1100W 6.3s   mysql 1900W 9.9s...
Spark-Sql整合hive,在spark-sql命令和spark-shell命令下执行sql命令和整合调用hive
1.安装hive 如果想创建一个数据库用户,并且为数据库赋值权限,可以参考:http://blog.csdn.net/tototuzuoquan/article/details/527855042.将配置好的hive-site.xml、core-site.xml、hdfs-site.xml放入$SPARK_HOME/conf目录下[root@hadoop1 conf]# cd /home/tuzq
Spark与Hive的Beeline运行机制
因为业务中主要使用Spark Thriftserver作为adhoc查询服务,而Spark原生是不支持SQLStdBasedAuthorization,所以需要调研这方面源码,本文将这方面的理解分享给大家,如有错误欢迎指出。Spark的beeline在很多地方直接沿袭hive的beeline,当然Spark也有很多适应性的本地化改造,下面从数据流的角度来讲解。 (注:Spark源码主要依据spar
Spark SQL来读取现有Hive中的数据
Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。 Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。 本文就是来介绍如何通过Spark SQ
Spark1.6.0——HiveThriftServer2的生命周期管理
前言 几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到Spark的Thrift服务,当时心中就笃定它肯定与HiveServer2有着某种联系,直到在工作中真正使用它。 在使用HiveThriftServer2的过程中,通过故障排查、源码分析和功能优化...
解密Spark SQL与DataFrame的本质
本篇博文主要讲解内容如下: 1. Spark SQL与DataFrame 2. RDD与DataFrame 3. Spark SQL企业级最佳实践 一:Spark SQL与DataFrame 1. Spark SQL非常强大主要体现在一下几点:a) 可以处理一切存储介质和各种格式的数据(可以方便的扩展Spark SQL的功能来支持更多类型
[Hadoop] 使用Spark SQL来访问Hive里面的数据
1. 环境准备 1.1 安装Hive 1.2 安装Spark 1.3 拷贝hive的conf下的hive-site.xml到spark的conf目录下 [hadoop@hadoop000 ~]$ cd app/spark [hadoop@hadoop000 spark]$ cp ~/app/hive-1.1.0-cdh5.7.0/conf/hive-site.xml conf/ 1.4...
Spark是否能替代Hive
在实际生产环境中已经形成了离线以Hive为主,Spark为辅, 实时处理用Flink的大数据架构体系及Impala, Es,Kylin等应用查询引擎 但是有很多学习Spark的程序员普遍认为Spark必然会替代Hive成为新的一代大数据仓库标准 同时,培训市场也出现了Hive已经落后,学习大数据只要学习Spark相关言论 但结合实际工作的情况来看,这类说法和实际情况并不相符,本文针对数据仓库...
SparkSQL开窗函数
row_number()开窗函数 其实就是给每个分组的数据,按照其排序的顺序,打上一个分组内的行号 比如说,有一个分组date = 20151001,里面有三条数据,1122,1121,1124, 那么对这个分组的每一行使用row_number()开窗函数以后,三行,依次会获得组内的行号 行号从1开始递增,比如1122  1,1121  2,1123  3   row_number()...
Spark SQL Hive数据源复杂综合案例实战
Spark SQL Hive数据源复杂综合案例实战(读写各种分区表)Hive数据源来源 Spark SQL除了支持SQLContext之外,还支持HIVESQL语法,利用HIVEContext来创建,HiveContext继承自SQLContext,但是增加了在Hive表中数据库中查找,同时也支持hql(方法)。Hiveql的功能要比sql的功能要强大很多。 使用HiveContext,可以执行Hi
SparkSql整合Hive注意点
  其他的配置hive基本配置就不记录了!!1. 拷贝$HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加    export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin  注:切记SPARK_CLASSPATH这一行必须的配置:...
Spark-sql 连接hive中遇到的问题
在使用spark-sql的时候发现,可以连接上hive并可以使用show tables的语句查询到表,但是后来尝试发现没法做其他更多的操作, 通过log信息发现,是metadata无法连接的问题,联想到前天在配置spark连接hive的时候见过一个启动metadata的命令 ./hive --service metadata & 于是猜想是因为没有把这个服务给启动,于是spark-sql虽
黑猴子的家:Spark Sql 写入数据到 Hive
1、Constants 常量 object Constants { val TABLE_USER_INFO = "user_info" val TABLE_PRODUCT_INFO = "product_info" val TABLE_USER_VISIT_ACTION = "user_visit_action" } 2、DateModel /** * 数量:100...
第5章 从Hive平滑过渡到Spark SQL
5-1 -课程目录 5-2 -A SQLContext的使用 The entry point into all functionality in Spark SQL is the SQLContext class, or one of its descendants. To create a basic SQLContext, all you need is a SparkContex...
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 c++ mlib spark 调用 java 接口跟c++的模板有啥区别 c++异常处理有啥用 spark教程+python spark教程python