hadoop比spark的优势?

最近入门spark,但是网上都是说spark的优势,速度快。可是现在很多企业是hadoop结合spark,说明hadoop也有他的优势面?
所以hadoop比spark优势,更擅长什么?

0

查看全部1条回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Spark与Hadoop相比的优缺点
1. Spark 概述 1.1. 什么是 Spark(官网:http://spark.apache.org) spark 中文官网:http://spark.apachecn.org Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache ...
spark相比hadoop的 优势如下
1、中间结果输出   基于mr的计算引擎通常会将中间结果输出到磁盘上,进行存储和容错。处于任务管道承接的考虑,当一些查询翻译到mr任务时,旺旺会产生多个stage,而这些串联的stage又依赖于底层文件系统(如hdfs)来存储每一个stage的输出结果。 spark将执行模型抽象为通用的有向无环图,dag计划 着可以将多个stage的任务串联或者并行执行,而无需将stage中间结果输出到hdf
Spark是什么,与Hadoop相比,主要有什么本质不同?
什么是Spark?Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map r...
总结Spark比Hadoop快的原因
1. 消除了冗余的HDFS读写 Hadoop的每次shuffle都必须写到磁盘中,而Spark的shuffle不一定写到磁盘中,而是可以缓存到内存中,以便后续的其他迭代操作时直接使用。这样一来,如果任务复杂,需要很多次的shuffle才能完成,那么Hadoop读写磁盘文件时花费在IO上的时间就会大大增加。 2. 消除了冗余的MapReduce阶段 Hadoop的每次shuffle必将连接着一...
大数据Storm相比于Spark、Hadoop有哪些优势(摘录)
一、可能很多初学大数据的伙伴不知道strom是什么,先给大家介绍一下strom:分布式实时计算系统,storm对于实时计算的意义类似于hadoop对于批处理的意义。 storm的适用场景。 流数据处理。Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。分布式rpc。由于storm的处理组件是分布式的,而且处理延迟极低,所以可以作为一个通用的分布式rpc框架来使用。当然,
MapReduce与Spark异同点和优势比较
MapReduce与Spark异同点和优势比较
Spark为啥比hadoop速度快?
1.统一的RDD抽象和操作,基于该抽象一个栈就可以轻松的处理实时流计算,SQL交互式查询,机器学习和图计算等。 基于统一的技术堆栈,使得Spark称为大数据通用计算平台。 2.基于内存的迭代式计算 回顾下hadoop中经典处理过程: MapReduce在每次执行时都要从磁盘读取数据,计算完毕后都要把数据存放到磁盘上。 比如:机器学习的时候
Spark相比MapReduce的优势
MapReduce是Apache Hadoop中用于大规模数据集计算的并行计算框架,目前被广泛应用于企业的离线数据处理上。但是因为种种原因,MapReduce的性能并不理想。而Spark作为数据处理框架界的后起之秀,很多方面都超过了MapReduce。下面来列出MapReduce的不足以及Spark对其的改进。MapReduce: 仅支持Map和Reduce两种操作 Map中间结果需要写磁盘 任务调
【Spark三十九】Spark比Hadoop速度快的原因总结
Spark的速度比Hadoop快将近100倍,原因都有哪些,本文进行归纳总结   Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,见http://www.cnblogs.com/hseagle/p/3673138.html Broadcast机制 Cache Checkpoint Spark的计算模型     Hadoop...
spark与hadoop的关联和区别,以及spark为什么那么快
spark为什么快? Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 1,Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。所谓的内存计算技术也就是缓存技术,把数据放到缓存中,减少cpu...
大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点1.Spark基础知识1.Spark是什么?UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器
spark与Hadoop的比较
1、spark与Hadoop的联系 1)spark继承Hadoop Spark 紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式,可以与 Hadoop 上的常用数据格式,如 Avro 和 Parquet(当然也包括古老的 CSV),进行交互。它能读写 NoSQL 数据库,比如HBase和Cassandra。它的流式处理组件 Spark St
Spark为什么比Hadoop快?
最近在招聘面试的时候,往往听到应聘者在介绍Spark的时候,通常拿Spark官网案例Spark和Hadoop做比较。当我问到为什么Spark比Hadoop快时候,得到的答案往往是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据...
Hadoop与spark性能比较试验
自从spark正式亮相后,其官网上就公开声称其计算速度比hadoop要快10到100倍。我看了后总觉得其存在很大的炒作成份,不太相信。正好单位目前在做一个大数据的项目,于是就借机实实在在的对二者的计算速度进行了比较。正如一句北京土话:是骡子是马,拉出来遛遛。实验过程记录如下。 第一步安装软件 我先在笔记本上装了个乌班图,然后安装hadoop,接着安装spark,。安装过程不再赘述,但有一点要提
Spark相对于MapReduce的优势对比
Spark相对于MapReduce的优势 MapReduce存在的问题 1. MapReduce框架局限性   1)仅支持Map和Reduce两种操作   2)处理效率低效。     a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大;     b)无法充分利用内存     c)Map端和Reduce端均需要排序   3...
spark是什么?spark和MapReduce的区别?spark为什么比hive速度快?
spark是什么? spark是针对于大规模数据处理的统一分析引擎,通俗点说就是基于内存计算的框架 spark和hive的区别? 1.spark的job输出结果可保存在内存中,而MapReduce的job输出结果只能保存在磁盘中,io读取速度要比内存中慢; 2.spark以线程方式运行,MapReduce以进程的方式运行,进程要比线程耗费时间和资源; 3.spark提供了更为丰富的算子操...
spark比MapReduce快的原因
park比MapReduce快的原因 Spark是基于内存的,而MapReduce是基于磁盘的迭代 MapReduce的设设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。 Spark的设计:数据在内存中进行交换,要快一些,但是内存这个东西,可靠性不如磁盘。所以性能方面比MapReduce要好。 DAG计算模型在迭代计算上还是比MapReduce的效率更高 有向无环...
spark的特点,spark和mapreduce的比较
1.spark的特点 (1)运行速度快,如果数据由磁盘读取,速度是hadoop mapreduce的10倍以上,如果数据从内存读取,速度是hadoop mapreduce的100倍以上。主要原因是因为基于内存计算和引入DAG执行引擎。 (2)易用性好,spark不仅支持scala编程呢个,还支持java和python编写。 (3)通用性好 (4)随处运行 2.spark和mapreduc...
Spark和hadoop对比之spark解析
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
Spark为什么快?
Spark SQL比Hadoop Hive快,是有一定条件的,而且不是Spark SQL的引擎比Hive的引擎快,相反,Hive的HQL引擎还比Spark SQL的引擎更快。 其实,关键还是在于Spark 本身快。 Spark为什么快? 1、消除了冗余的HDFS读写 Hadoop每次shuffle操作后,必须写到磁盘,而Spark在shuffle后不一定落盘,可以cache
解析spark和mapReduce的区别和优劣
作者:知乎用户 链接:https://www.zhihu.com/question/53354580/answer/307863620 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。MapReduce框架有两个步骤(MapReduce 框架...
Spark为什么比Hadoop快
1.前言 大数据工程师都喜欢拿Spark和Hadoop进行对比。一般的理解就是:Spark是基于内存的计算,而Hadoop是基于磁盘的计算;Spark是一种内存计算技术。 果真如此吗?事实上,不光Spark是内存计算,Hadoop其实也是内存计算。Spark和Hadoop的根本差异是多个任务之间的数据通信问题:Spark多个任务之间数据通信是基于内存,而Hadoop是基于磁盘。 Spark...
hadoop、storm和spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过
spark的四种模式,spark比MapReduce快的原因
Spark 是美国加州大学伯克利分校的 AMP 实验室(主要创始人 lester 和 Matei)开发的 通用的 大数据处理框架。   Apache Spark™ is a fast and general engine for large-scale data processing.   Apache Spark is an open source cluster computing sys...
Hadoop、Spark等5种大数据框架对比
简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。 本文将介绍大数据系统一个最基本的组件:处理框架。处理框架负责对系统中的数据进行计算,例如处理从非易失存储中读取的数据,或处理刚刚摄入到系统中的数据。数据的计算则
Spark独到见解--1、什么是Spark?及和MR的区别
Spark基础及和MR的区别
大数据处理为何选择Spark,而不是Hadoop
一.基础知识 1.Spark Spark是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark扩展了广泛使用的MapReduce计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。 Spark的各个组件 2.Hadoop Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布
八大机器学习框架对比及Tensorflow的优势
八大机器学习框架的对比: (1)  TensorFlow:深度学习最流行的库之一,是谷歌在深刻总结了其 前身 DistBelief 的经验教训上形成的;它不仅便携、高效、可扩 展,还能再不同计算机上运行:小到智能手机,大到计算机集群都 能;它是一款轻量级的软件,可以立刻生成你的训练模型,也能 重新实现它;TensorFlow 拥抱创新,有强大的社区、企业支持, 因此它广泛用于从个人到企业、从初创
计算速率极快的Hadoop3.0 到底有哪些实用新特性?
比Spark快10倍的Hadoop3.0有哪些实用新特性?Hadoop 3.0简介Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是hadoop 3.0。Hadoop 3.0的alpha版2016夏天发布,GA版本2016年11月或12月发布。Hadoop 3.0中引入了...
Hadoop、storm和Spark的区别、比较
一、hadoop、Storm该选哪一个? 为了区别hadoop和Storm,该部分将回答如下问题: 1.hadoop、Storm各是什么运算 2.Storm为什么被称之为流式计算系统 3.hadoop适合什么场景,什么情况下使用hadoop 4.什么是吞吐量 首先整体认识:Hadoop是磁盘级计算,进行计算时,数据在磁盘上,需要读写磁盘;Storm是内存级计算,数据直接通过网络
Spark Streaming与Storm的优缺点分析
Storm是纯实时的,Spark Streaming是准实时的但是Storm的事务机制、健壮性、容错性、动态调整并行度特性,都要比Spark Streaming更加的优秀但是SparkStream, 有一点是Storm绝对比不上的,就是:它位于Spark生态技术中,因此Spark Streaming可以和Spark CoreSpark SQL无缝集合,也就意味这,我们可以对实时处理出来的数据,立刻...
Spark与Hadoop MR兄弟两的不同
在大数据相关的面试中,经常会遇到了一个经典的问题:请说说Spark与Hadoop MR的异同? 虽然你有可能过关了,但是由于现场发挥的原因,看了这篇文章你还可以答得更好,就在这里总结一下这个问题。 首先Spark是借鉴了mapreduce并在其基础上发展起来的,继承了其分布式计算的优点并改进了mapreduce 明显的缺陷,但是二者也有不少的差异具体如下: 1、spark把运算的中间数据存...
hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle过程介绍 Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越
Storm与Spark、Hadoop三种框架对比
一、Storm与Spark、Hadoop三种框架对比Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Had...
深度:Hadoop和Spark五大维度的正面对比!
每年,市场上都会出现种种不同的数据管理规模、类型与速度表现的分布式系统。在这些系统中,Spark和hadoop是获得最大关注的两个。然而该怎么判断哪一款适合你?如果想批处理流量数据,并将其导入HDFS或使用Spark Streaming是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足您的需求吗?为了增加混淆,Spark和Hadoop经常与位于HDFS,Hadoop文件...
MR、Spark浅析
一、两者执行流程: 1.spark执行流程: 1.driver跟master建立连接并申请资源 2.Master进行资源调度 3.Master跟worker进行rpc通信,worker启动Executer 4.启动Executor 5.Executor跟driver进行通信 6.Rdd触发action后,根据rdd从后往前推断依赖关系,遇到shuffle递归切分stage,直到某个rdd没有父rd...
浅谈Apache Flink和Apache Spark的异同与发展前景
1、抽象 AbstractionSpark中,对于批处理我们有RDD,对于流式,我们有DStream,不过内部实际还是RDD.所以所有的数据表示本质上还是RDD抽象。后面我会重点从不同的角度对比这两者。在Flink中,对于批处理有DataSet,对于流式我们有DataStreams。看起来和Spark类似,他们的不同点在于:(一)DataSet在运行时是表现为运行计划(runtime plans)...
Redis与Hadoop的优缺点对比:
Redis 优点: 1 读写性能优异 2 支持数据持久化,支持AOF和RDB两种持久化方式 3 支持主从复制,主机会自动将数据同步到从机,可以进行读写分离。 4 数据结构丰富:除了支持string类型的value外还支持string、hash、set、sortedset、list等数据结构。缺点: 1 Redis不具备自动容错和恢复功能,主机从机的宕机都会导致前端部分读写请求失败,需要等
Spark技术原理
Spark概述 Spark简介: Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。 Spark...
秒懂Hadoop和Spark联系与区别
谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。 解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个
文章热词 Hadoop Spark Spark培训 Hadoop培训 Hadoop学习
相关热词 c++ mlib spark 调用 c++ hadoop 编译环境 c++ 优势 共享内存 劣势 spark教程+python spark教程python