hive on spark 和 spark sql 有啥区别?

hive on spark 和 spark sql 都是用spark引擎计算,个人觉得没啥区别。
网友说:
hive on spark 是cloudera公司开发的,spark sql是spark开发的,这个算是区别吗?
写法不同?

请大神解答。

0

1个回答

SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案。Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL。这是Spark官方Databricks的项目,Spark项目本身主推的SQL实现。Hive On Spark比SparkSQL稍晚。Hive原本是没有很好支持MapReduce之外的引擎的,而Hive On Tez项目让Hive得以支持和Spark近似的Planning结构(非MapReduce的DAG)。所以在此基础上,Cloudera主导启动了Hive On Spark。这个项目得到了IBM,Intel和MapR的支持(但是没有Databricks)。
结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序。需要理解的是,Hive和SparkSQL都不负责计算,它们只是告诉Spark,你需要这样算那样算,但是本身并不直接参与计算。
Spark官方Databricks本身是不愿意承认Hive On Spark的正统地位的。Shark, Spark SQL, Hive on Spark, and the future of SQL on Spark从它们官博上可以看出他们对Hive On Spark的定位更像是小三而不是正房。所以你看到Apache Hive On Spark的各种努力,并没有得到最重要的Spark Vendor,Databricks的多少支持。SQL是面对用户最直接的一个层面,如果Databricks能控制这个层面,各种功能添加都由自己做主,就不用受制于Hive的社区,这也是很直接的好处,而且我觉得引擎就位之后几个厂商拼的都是上层,要搞出数据仓库还有很多东西要做,但是如果把不住SQL这层,就很难办。但Hive毕竟有辣嘛多厂商支持,D社是否能拿到主控权,还不好说。D社已经有废掉Shark的前科,所以我不是很看好SparkSQL。

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark替代Hive实现ETL作业
spark替代Hive实现ETL作业
Hive on Spark 性能优化
Hive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。本文参照CDH官方文档翻译而来,分享给大家
spark hive jdbc 连接 增删改查 代码
spark hive jdbc 连接 增删改查 代码
简单的spark 读写hive以及mysql
简单的spark加载HIVE MYSQL 数据,以及简单的进行往mysql,hive写入数据
Hadoop Hive HBase Spark Storm概念解释
Hadoop Hive HBase Spark Storm概念解释
spark core、spark sql以及spark streaming 的Scala、java项目混合框架
包中构建了Java以及Scala混合框架的maven打包框架以及关于spark core,spark sql 、spark streaming的一些典型案例或者算子使用。其来源于哔哩哔哩 spark 90小时的学习视频的案例。其中有部分关于hdfs的文件读写,使用者需搭建hadoop框架。
eclipse集成hadoop+spark+hive开发源码实例
windows系统下eclipse集成hadoop,spark,hive开发环境
Hadoop+Hbase+Spark+Hive搭建
全套的Hadoop+Hbase+Spark+Hive搭建指导手册
大数据hadoop,spark,hive等等面试汇总
常见java面试,大数据方面,hadoop原理,hive,hbase,spark面试等的常问问题
presto和hive的使用区别
Hive是把一个查询转化成多个MapReduce任务,然后一个接一个执行。执行的中间结果通过对磁盘的读写来同步。然而,Presto没有使用MapReduce,它是通过一个定制的查询和执行引擎来完成的。它的所有的查询处理是在内存中,这也是它的性能很高的一个主要原因。
MapReduce与Spark异同点和优势比较
MapReduce与Spark异同点和优势比较
bigBench.pdf
Evaluating Hive and Spark SQL with BigBench
Scala代码积累之spark streaming kafka 数据存入到hive源码实例
Scala代码积累之spark streaming kafka 数据存入到hive源码实例,Scala代码积累之spark streaming kafka 数据存入到hive源码实例。
Hadoop大数据Java Spark Hive Linux视频基础入门到精通教程2017
Hadoop大数据Java Spark Hive Linux视频基础入门到精通教程2017
Spark dataset and dataframe 深入分析
SPARK 最新版本支持的dataset and dataframe的深入分析和设计
spark-2.3.0-bin-hadoop2-without-hive
spark-2.3.0-bin-hadoop2-without-hive.spark2.3版本源码编译不含hive jar包的安装包。用于安装hive on spark
SparkSQL HDFS JAVA调用完整实例
SparkSQL HDFS JAVA调用完整实例,使用Maven管理,项目很小,里面实例很多。敬请下载。
Spark、Hadoop、Hive、HBase完整视频地址
资源是学习大数据的资料,视频,学者可以自行下载,学习里面的东西
spark-sql 基础教程
spark-sql 基础理论教程。详细介绍了spark sql的工作原理。以及hive在spark上如何工作。
hadoop、hive、spark、storm、机器学习
内含hadoop、hive、spark、机器学习、数据挖掘、storm、hbase等124本书,你值得拥有
Baidu基于Spark SQL构建即席查询平台
Baidu基于Spark SQL构建即席查询平台
hive 教程 简单 容易上手
hive spark sql 简明简单教程 容易上手。
spark sql介绍
spark sql的外部扩展源介绍,和对hive的支持介绍
Hadoop(HDFS、YARN、HBase、Hive和Spark等)默认端口表
端口 作用 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 50070 dfs.namenode.http-address 50470 dfs.namenode.https-address 50100 dfs.namenode.backup.address 50105 dfs.namenode.backup.http-address 50090 dfs.namenode.secondary.http-address,如:172.25.39.166:50090 50091 dfs.namenode.secondary.https-address,如:172.25.39.166:50091 50020 dfs.datanode.ipc.address 50075 dfs.datanode.http.address 50475 dfs.datanode.https.address 50010 dfs.datanode.address,DataNode的数据传输端口 8480 dfs.journalnode.rpc-address 8481 dfs.journalnode.https-address 8032 yarn.resourcemanager.address
hadoop、storm、spark的区别对比
概括性、总结性的对比Mapreduce、spark、storm,三者的特点,区别对比。
Hadoop权威指南(带目录书签)+spark Spark快速数据处理+ hive编程
Hadoop权威指南(带目录书签)+spark Spark快速数据处理+ hive编程,Hadoop权威指南(带目录书签)+spark Spark快速数据处理+ hive编程
Spark性能测试报告-Spark SQL在不同存储格式下的性能对比
Spark SQL在不同存储格式下的性能对比 本文测试的目的是用来对比 Spark 三种存储格式txt、parquet、ya100的性能差异。 因机器环境以及配置的不同,测试结果可能略有差异,该测试报告仅对笔者的软硬件环境负责。
spark环境安装(Hadoop HA+Hbase+phoneix+kafka+flume+zookeeper+spark+scala)
亲手在Centos7上安装,所用软件列表 apache-flume-1.8.0-bin.tar.gz apache-phoenix-4.13.0-HBase-1.3-bin.tar.gz hadoop-2.7.4.tar.gz hbase-1.3.1-bin.tar.gz jdk-8u144-linux-x64.tar.gz kafka_2.12-1.0.0.tgz scala-2.12.4.tar.gz scala-2.12.4.tgz spark-2.2.0-bin-hadoop2.7.tgz spark-2.2.0.tgz zookeeper-3.4.11.tar.gz
spark sql 实战视频教程(百度云分享)
spark sql 日志分析
apachespark.rar
spark-2.3.0.tgz 安装包 hive3.1.1默认的spark版本,hive on spark 需要自己编译去掉 Hive引用包。
Hadoop权威指南第四版(中文+英文)+Spark高级数据分析
Hadoop权威指南第四版带目录完整版免费版,hadoop第四版英文文字版,spark文字版
数仓ETL任务规范
hive spark hadoop
Hive on Spark源码分析DOC
Hive on Spark源码分析,实际场景中会遇到需求:将Hive默认的执行引擎MapReduce换成Spark或者Tez。
spark-sql入门
spark-sql入门资源!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)
Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)
Spark SQL 入门到精通到项目实战的世界(全套日志分析)日志文件
慕课网Spark SQL 入门到精通到项目实战的世界(全套日志分析)日志文件
hadoop2.7.3+hive1.2.1+spark2.0.1性能测试
hadoop2.7.3+hive1.2.1+spark2.0.1性能测试
crontab shell调用spark-sql,实现周期性动态SQL批量自动执行.rar
对于熟悉Scala开发的人来说,对于spark-sql的使用,直接jar包中写入代码处理就能轻松实现动态语句的执行。 但是对于我,不打算学习Scala和Java语言,但是又想定时执行时间推延的周期、定时任务,该肿么办? spark-sql CLI几个参数,完全满足我等非专业人员。
sparkSQL原理介绍
sparkSQL介绍 包括spark的原理介绍 从较为原理的角度分析sparkSQL
大数据(hadoop+spark+hbase+zookeeper+kafka+scala+ambari)全套视频教程(花3000¥买的)
大数据 hadoop spark hbase ambari全套视频教程(购买的付费视频)
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 学习java有啥用 学习java有啥作用