hadoop比spark的优势?

最近入门spark,但是网上都是说spark的优势,速度快。可是现在很多企业是hadoop结合spark,说明hadoop也有他的优势面?
所以hadoop比spark优势,更擅长什么?

0

1个回答

spark确实在一定方面比mapreduce快,比如机器学习的迭代过程,spark是把中间的数据保存在内存中,在每次迭代的时候直接从内存中提取,而mapreduce一直是IO传输,速度比spark慢。但是在相对的比较大,长时间处理与存储的数据来说,还是hadoop相对来说有可取的地方,所以很多企业都是结合起来用,或者更改源代码来获得更大效率

-1
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark相比hadoop的 优势如下
1、中间结果输出   基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。 spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdf
Spark与Hadoop相比的优缺点
1. Spark 概述 1.1. 什么是 Spark(官网:http://spark.apache.org) spark 中文官网:http://spark.apachecn.org Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache ...
Spark是什么,与Hadoop相比,主要有什么本质不同?
什么是Spark?Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map r...
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点1.Spark基础知识1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器
大数据Storm相比于Spark、Hadoop有哪些优势(摘录)
一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。 storm的适用场景。 流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,
spark与Hadoop的比较
1、spark与Hadoop的联系 1)spark继承Hadoop Spark 紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式,可以与 Hadoop 上的常用数据格式,如 Avro 和 Parquet(当然也包括古老的 CSV),进行交互。它能读写 NoSQL 数据库,比如HBase和Cassandra。它的流式处理组件 Spark St
总结Spark比Hadoop快的原因
1. 消除了冗余的HDFS读写 Hadoop的每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。 2. 消除了冗余的MapReduce阶段 Hadoop的每次shuffle必将连接着一...
Spark为啥比hadoop速度快?
1.统一的RDD抽象和操作,基于该抽象一个栈就可以轻松的处理实时流计算,SQL交互式查询,机器学习和图计算等。 基于统一的技术堆栈,使得Spark称为大数据通用计算平台。 2.基于内存的迭代式计算 回顾下hadoop中经典处理过程: MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 比如:机器学习的时候
Spark和Hadoop的区别和比较
目录 一、 两者的各方面比较 二、Spark相对Hadoop的优越性 三、三大分布式计算系统 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎 Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)   一、实现原理的比较 Hadoop和Spark都是并...
spark与hadoop的关联和区别,以及spark为什么那么快
spark为什么快? Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 1,Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。所谓的内存计算技术也就是缓存技术,把数据放到缓存中,减少cpu...
【Spark三十九】Spark比Hadoop速度快的原因总结
Spark的速度比Hadoop快将近100倍,原因都有哪些,本文进行归纳总结   Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,见http://www.cnblogs.com/hseagle/p/3673138.html Broadcast机制 Cache Checkpoint Spark的计算模型     Hadoop...
Spark相对于MapReduce的优势对比
Spark相对于MapReduce的优势 MapReduce存在的问题 1. MapReduce框架局限性   1)仅支持Map和Reduce两种操作   2)处理效率低效。     a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大;     b)无法充分利用内存     c)Map端和Reduce端均需要排序   3...
深度:Hadoop和Spark五大维度的正面对比!
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗?为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件...
Hadoop与Spark之间的比较
Hadoop与Spark之间的比较 Hadoop框架的主要模块包括如下: Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce 虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop
Spark相比MapReduce的优势
MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架,目前被广泛应用于企业的离线数据处理上。但是因为种种原因,MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀,很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。MapReduce: 仅支持Map和Reduce两种操作 Map中间结果需要写磁盘 任务调
Spark为什么比Hadoop快?
最近在招聘面试的时候,往往听到应聘者在介绍Spark的时候,通常拿Spark官网案例Spark和Hadoop做比较。当我问到为什么Spark比Hadoop快时候,得到的答案往往是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据...
Hadoop与spark性能比较试验
自从spark正式亮相后,其官网上就公开声称其计算速度比hadoop要快10到100倍。我看了后总觉得其存在很大的炒作成份,不太相信。正好单位目前在做一个大数据的项目,于是就借机实实在在的对二者的计算速度进行了比较。正如一句北京土话:是骡子是马,拉出来遛遛。实验过程记录如下。 第一步安装软件 我先在笔记本上装了个乌班图,然后安装hadoop,接着安装spark,。安装过程不再赘述,但有一点要提
MapReduce与Spark异同点和优势比较
MapReduce与Spark异同点和优势比较
hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过
spark的四种模式,spark比MapReduce快的原因
Spark 是美国加州大学伯克利分校的 AMP 实验室(主要创始人 lester 和 Matei)开发的 通用的 大数据处理框架。   Apache Spark™ is a fast and general engine for large-scale data processing.   Apache Spark is an open source cluster computing sys...
spark比MapReduce快的原因
park比MapReduce快的原因 Spark是基于内存的,而MapReduce是基于磁盘的迭代 MapReduce的设设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。 Spark的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性不如磁盘。所以性能方面比MapReduce要好。 DAG计算模型在迭代计算上还是比MapReduce的效率更高 有向无环...
Spark Streaming与Storm的优缺点分析
Storm是纯实时的,Spark Streaming是准实时的但是Storm的事务机制、健壮性、容错性、动态调整并行度特性,都要比Spark Streaming更加的优秀但是SparkStream, 有一点是Storm绝对比不上的,就是:它位于Spark生态技术中,因此Spark Streaming可以和Spark CoreSpark SQL无缝集合,也就意味这,我们可以对实时处理出来的数据,立刻...
2.0的spark的是是如何比1.0的快10-100倍
从三点来理解 1.更简单 支持标准的SQL和简化的API 一,在编程API方面,spark简化了API 二,统一了Scala/java下的Dataset和DataFraeam 三,只需要创建sparksession不再需要创建sparkcontext等系列的初始化对象 四,支持一些管道的持久性和一些R的分布式算法 首先我们要明白sparksql处理结构化数据和非结构化数据的方法,对于...
大数据处理为何选择Spark,而不是Hadoop
一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。 Spark的各个组件 2.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布
Spark相对于MapReduce的优势
Spark是类Hadoop MapReduce的通用的并行计算框架,但不同于MapReduce的是Job中间输出和结果可以保存在内存中,也就是说spark是基于内存计算的,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法这里简单说一下对spark相对于mapreduce的优势
Spark和hadoop对比之spark解析
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
Spark为什么快?
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 Spark为什么快? 1、消除了冗余的HDFS读写 Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache
Spark和MapReduce相比,都有哪些优势?
在实际应用中,由于MapReduce在大量数据处理时存在高延迟的问题,导致Hadoop无力处理很多对时间有要求的场景,越来越多的公司开始采用Spark作为与计算大数据的核心技术。 Spark和MapReduce相比,都有哪些优势?一个最明显的优点就是性能的大规模提升。 通俗一点说,我们可以将MapReduce理解为手工作坊式生产,每一个任务都是由作坊独立完...
GP和Hadoop各自的优势在哪?
GP是基于关系模式的数据仓库解决方案,在处理结构化数据尤其是关系数据方面有优势,比较适合比如电信、银行这类数据主要以结构化存储的企业或组织;Hadoop是一种分布式开发接口,可以基于hadoop开发处理结构或非结构数据的应用,而且根据调查显示,在互联网领域,95%的数据都是非结构化的,所以比较适合在互联网领域。...
大数据之Hadoop vs. Spark,如何取舍?
Hadoop在大数据领域享有多年垄断权,随着该领域开始出现新生力量,其统治地位正在逐渐下滑。年初的调查中,Hadoop被列为2018年大数据领域的“渐冻”趋势之一,Gartner的调查也揭示了Hadoop使用量的下滑,不少人将Hadoop称作“倒下的大象”,比如Lucidworks首席执行官Will Hayes。如果Hadoop开始进入寒冬期,率先崛起的会是呼声最高的Spark吗?笔者曾经看过一个
关系型数据库管理系统跟Hadoop比较
1.问题: 为什么不能配有大量硬盘的数据库来进行大规模的数据分析?我们为什么需要hadoop? 2.说明: 这两个问题的答案来自计算机硬盘的另一个发展趋势:寻址的时间提升远远不滴于传输速率的提升。寻址是将磁头移动到特定的硬盘位置进行读/写的过程。 它是导致硬盘操作延迟的主要原因,而传输速率取决于硬盘的宽带。 如果数据访问中含有大量的硬盘寻址,那么读取大量数据集就必然话费更长的时间(相对于
spark是什么?spark和MapReduce的区别?spark为什么比hive速度快?
spark是什么? spark是针对于大规模数据处理的统一分析引擎,通俗点说就是基于内存计算的框架 spark和hive的区别? 1.spark的job输出结果可保存在内存中,而MapReduce的job输出结果只能保存在磁盘中,io读取速度要比内存中慢; 2.spark以线程方式运行,MapReduce以进程的方式运行,进程要比线程耗费时间和资源; 3.spark提供了更为丰富的算子操...
解析spark和mapReduce的区别和优劣
作者:知乎用户 链接:https://www.zhihu.com/question/53354580/answer/307863620 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架...
谈谈Hadoop和分布式Lucene
来源: 作者:马士华 [字体:大 中 小]   Lucene是大家用的最多的开源搜索引擎。本文不探讨Lucene如何实时更新(http://issues.apache.org/jira/browse/LUCENE-1313),和如何修改Lucene评分机制,添加如PageRank评分因子,本文只讨论分布式的Lucene。     说到Lucene一般都会提到Nutc
hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越
spark比mapreduce快的一个原因
接触spark时间不长,但是有些概念还是没有太校准,于是回顾了一下spark的文档。读到shuffle操作那块发现spark的shuffle操作后的reduce也是存储到文件然后从文件中读取。以前一直以为spark快是因为这部分操作是在内存中执行,也就是reduce操作从内存中读取shufflemaptask的结果。看来以后学知识还是要扎实一点,慢一点没有关系。 上面指出了,spark也是从文件...
为什么说Spark SQL远远超越了MPP SQL
Apache Spark Future 吐槽Spark,其实我看了半天没看懂他在说啥。不过总体而言DataBricks公司目前很多的做法其实蛮合我的理念的。 前言 这里说的并不是性能,因为我没尝试对比过(下文会有简单的说明),而是尝试从某种更高一层次的的角度去看,为什么Spark SQL 是远远超越MPP SQL的。 Spark SQL 和 MPP ...
浅谈Apache Flink和Apache Spark的异同与发展前景
1、抽象 AbstractionSpark中,对于批处理我们有RDD,对于流式,我们有DStream,不过内部实际还是RDD.所以所有的数据表示本质上还是RDD抽象。后面我会重点从不同的角度对比这两者。在Flink中,对于批处理有DataSet,对于流式我们有DataStreams。看起来和Spark类似,他们的不同点在于:(一)DataSet在运行时是表现为运行计划(runtime plans)...
Hadoop、Spark等5种大数据框架对比
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则
薪资差一倍!Spark真的那么优于Hadoop吗?
薪资差一倍!Spark真的那么优于Hadoop吗?   这几天在网上看到这么一个问题,贵州的大数据工程师年薪都40万不止? 一下勾起了我的兴趣,今天就来简单分析下,到底是什么原因。贵州如今是大数据之都,而贵州大数据背后是马云的阿里云。   先来看看 马云爸爸的阿里巴巴的级别定义: •阿里薪资结构:一般是12+1+3=16薪 •年底的奖金为0-6个月薪资,90%人可拿到3个月
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据培训优势 数据库系统课程优势