hadoop比spark的优势?

最近入门spark,但是网上都是说spark的优势,速度快。可是现在很多企业是hadoop结合spark,说明hadoop也有他的优势面?
所以hadoop比spark优势,更擅长什么?

0

1个回答

spark确实在一定方面比mapreduce快,比如机器学习的迭代过程,spark是把中间的数据保存在内存中,在每次迭代的时候直接从内存中提取,而mapreduce一直是IO传输,速度比spark慢。但是在相对的比较大,长时间处理与存储的数据来说,还是hadoop相对来说有可取的地方,所以很多企业都是结合起来用,或者更改源代码来获得更大效率

-1
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark相比hadoop的 优势如下
1、中间结果输出   基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。 spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdf
Spark与Hadoop相比的优缺点
1. Spark 概述 1.1. 什么是 Spark(官网:http://spark.apache.org) spark 中文官网:http://spark.apachecn.org Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache ...
Spark是什么,与Hadoop相比,主要有什么本质不同?
什么是Spark?Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map r...
Spark为什么比Hadoop快?
最近在招聘面试的时候,往往听到应聘者在介绍Spark的时候,通常拿Spark官网案例Spark和Hadoop做比较。当我问到为什么Spark比Hadoop快时候,得到的答案往往是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据...
总结Spark比Hadoop快的原因
1. 消除了冗余的HDFS读写 Hadoop的每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。 2. 消除了冗余的MapReduce阶段 Hadoop的每次shuffle必将连接着一...
spark是什么?spark和MapReduce的区别?spark为什么比hive速度快?
spark是什么? spark是针对于大规模数据处理的统一分析引擎,通俗点说就是基于内存计算的框架 spark和hive的区别? 1.spark的job输出结果可保存在内存中,而MapReduce的job输出结果只能保存在磁盘中,io读取速度要比内存中慢; 2.spark以线程方式运行,MapReduce以进程的方式运行,进程要比线程耗费时间和资源; 3.spark提供了更为丰富的算子操...
大数据Storm相比于Spark、Hadoop有哪些优势(摘录)
一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。 storm的适用场景。 流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,
spark与Hadoop的比较
1、spark与Hadoop的联系 1)spark继承Hadoop Spark 紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式,可以与 Hadoop 上的常用数据格式,如 Avro 和 Parquet(当然也包括古老的 CSV),进行交互。它能读写 NoSQL 数据库,比如HBase和Cassandra。它的流式处理组件 Spark St
Spark相比MapReduce的优势
MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架,目前被广泛应用于企业的离线数据处理上。但是因为种种原因,MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀,很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。MapReduce: 仅支持Map和Reduce两种操作 Map中间结果需要写磁盘 任务调
Spark为啥比hadoop速度快?
1.统一的RDD抽象和操作,基于该抽象一个栈就可以轻松的处理实时流计算,SQL交互式查询,机器学习和图计算等。 基于统一的技术堆栈,使得Spark称为大数据通用计算平台。 2.基于内存的迭代式计算 回顾下hadoop中经典处理过程: MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 比如:机器学习的时候
MapReduce与Spark异同点和优势比较
MapReduce与Spark异同点和优势比较
Spark相对于MapReduce的优势对比
Spark相对于MapReduce的优势 MapReduce存在的问题 1. MapReduce框架局限性   1)仅支持Map和Reduce两种操作   2)处理效率低效。     a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大;     b)无法充分利用内存     c)Map端和Reduce端均需要排序   3...
spark与hadoop的关联和区别,以及spark为什么那么快
spark为什么快? Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 1,Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。所谓的内存计算技术也就是缓存技术,把数据放到缓存中,减少cpu...
解析spark和mapReduce的区别和优劣
作者:知乎用户 链接:https://www.zhihu.com/question/53354580/answer/307863620 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架...
Hadoop与Spark之间的比较
Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop
Spark独到见解--1、什么是Spark?及和MR的区别
Spark基础及和MR的区别
Spark的5大优势
一、Apache Spark 的5大优势: 1、 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下,Spark可以比Hadoop快100倍,在内存不够存放所有数据的情况下快hadoop10倍。 2、通过建立在Java,Scala,Python,SQL(应对交互式查询)的标准API以方便各行各业使用,同时还含有
spark的特点,spark和mapreduce的比较
1.spark的特点 (1)运行速度快,如果数据由磁盘读取,速度是hadoop mapreduce的10倍以上,如果数据从内存读取,速度是hadoop mapreduce的100倍以上。主要原因是因为基于内存计算和引入DAG执行引擎。 (2)易用性好,spark不仅支持scala编程呢个,还支持java和python编写。 (3)通用性好 (4)随处运行 2.spark和mapreduc...
大数据之Hadoop vs. Spark,如何取舍?
Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之一,Gartner的调查也揭示了Hadoop使用量的下滑,不少人将Hadoop称作“倒下的大象”,比如Lucidworks首席执行官Will Hayes。如果Hadoop开始进入寒冬期,率先崛起的会是呼声最高的Spark吗?笔者曾经看过一个
Hadoop与spark性能比较试验
自从spark正式亮相后,其官网上就公开声称其计算速度比hadoop要快10到100倍。我看了后总觉得其存在很大的炒作成份,不太相信。正好单位目前在做一个大数据的项目,于是就借机实实在在的对二者的计算速度进行了比较。正如一句北京土话:是骡子是马,拉出来遛遛。实验过程记录如下。 第一步安装软件 我先在笔记本上装了个乌班图,然后安装hadoop,接着安装spark,。安装过程不再赘述,但有一点要提
使用Spark的优势
传统MapReduce编程局限性 一个新的框架的诞生,必然是先前的框架无法满足现有的需求和提高生产力,那么相对于spark,传统的mapreduce 编程有哪些局限性呢: 1.繁杂:MapReduce 中,只提供了俩种算子:Map和Reduce,那么基于这俩种算子面对不同的需求场景必然会使编程变得很繁杂。 2.效率低下:1)进程级别低; 2) 基于磁盘,在迭代计算时,数据和网络的频繁IO; 3...
Spark为什么快?
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 Spark为什么快? 1、消除了冗余的HDFS读写 Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache
大数据处理为何选择Spark,而不是Hadoop
一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。 Spark的各个组件 2.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布
Storm与Spark、Hadoop三种框架对比
一、Storm与Spark、Hadoop三种框架对比Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Had...
Spark与Hadoop MR兄弟两的不同
在大数据相关的面试中,经常会遇到了一个经典的问题:请说说Spark与Hadoop MR的异同? 虽然你有可能过关了,但是由于现场发挥的原因,看了这篇文章你还可以答得更好,就在这里总结一下这个问题。 首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce 明显的缺陷,但是二者也有不少的差异具体如下: 1、spark把运算的中间数据存...
比Spark快10倍的Hadoop3.0有哪些实用新特性?
Apache  hadoop 项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。 其实最大改变的是hdfs,hdfs 通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。 1. Hadoop 3.0简介 Hadoop 2.0是
Hadoop、storm和Spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络
Redis与Hadoop的优缺点对比:
Redis 优点: 1 读写性能优异 2 支持数据持久化,支持AOF和RDB两种持久化方式 3 支持主从复制,主机会自动将数据同步到从机,可以进行读写分离。 4 数据结构丰富:除了支持string类型的value外还支持string、hash、set、sortedset、list等数据结构。缺点: 1 Redis不具备自动容错和恢复功能,主机从机的宕机都会导致前端部分读写请求失败,需要等
spark 和 elk 技术栈对比?
网络相关大数据分析架构用kafka + spark + hadoop比较好,还是ELK的解决方案比较好?不考虑机器学习,主要是用到spark的sql和streaming来做定时处理和数据聚合查询,发现elk也能完成同样的功能,ELK是不是相对来说轻量很多,更容易部署和维护? 不是同一个领域的东西 elk主要做搜索,日志,不太适合做大数据统计,当然数据量不大,或者在现有数据上顺便
计算速率极快的Hadoop3.0 到底有哪些实用新特性?
比Spark快10倍的Hadoop3.0有哪些实用新特性?Hadoop 3.0简介Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。Hadoop 3.0的alpha版2016夏天发布,GA版本2016年11月或12月发布。Hadoop 3.0中引入了...
hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过
MapReduce与MPI的优缺点
MapReduce与MPI各有优劣。
mapreduce和spark的原理及区别
本文主要根据自己的经验对于mapreduce和spark的原理及区别进行了一个详细的描述,对于了解和学习mapreduce和spark有着一定作用
Hadoop、Spark等5种大数据框架对比
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则
Hadoop与分布式数据处理 Spark VS Hadoop有哪些异同点?
Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比
大数据SQL交互查询 presto/spark/mapreduce 计算引擎对比
Hadoop、Storm和Spark 三者的区别、比较
一、hadoop、Storm该选哪一个?为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络导入内存。读写内存
Spark的好处及优势
1 官网地址 链接地址 2 MapReduce局限性 1)繁杂:Map和Reduce两种操作 2)处理效率低效。 IO:Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调 度和启动开销大; 进程级别 Map端和Reduce端均需要排序 3)不适合迭代计算(如机器学习、图计算等),交互式处理(数据挖掘) 和流式处理(点击日志分析) ...
VisualVM远程监控spark hadoop相关JVM情况配置
首先在${JAVA_HOME}/bin下建立文件jstatd.all.policy,键入如下内容:(注意要修改成你本机的java路径) grant codebase "file:/opt/jdk1.7/lib/tools.jar"{ permission java.security.AllPermission; };2.接下来通过jstatd来启动RMI服务: nohup jstatd -J-D
为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?
https://www.zhihu.com/question/20098507 为什么 Storm 比 Hadoop 快?是由哪几个方面决定的?修改 写补充说明 举报 添加评论  分享  • 邀请回答 按投票排序按时间排序 17 个回答 143赞同 反对,
文章热词 Hadoop Spark Spark培训 Hadoop培训 Hadoop学习
相关热词 c++ mlib spark 调用 c++ hadoop 编译环境 c++ 优势 共享内存 劣势 spark教程+python spark教程python