spark 如何 多个application同时运行不报错

如题,在代码层面,已经设置了config的
set("spark.driver.allowMultipleContexts","true")
但是同时两个任务提交的时候还是会出现两个任务都阻塞掉的问题
求教下,这个如何友好的优化,谢谢啦

0
扫码支付0.1元 ×
其他相关推荐
spark多个application的同时运行
在spark的Job Scheduling中介绍了spark多个任务同时执行,相关链接为: https://spark.apache.org/docs/1.2.0/job-scheduling.html     spark要实现多个application同时运行,涉及到多个application的资源共享。在spark on yarn模式下,yarn可以用来管理集群资源。为了能够比较好的利
Spark集群设置多Application并行执行
Apache Spark on Yarn集群多Application并行执行在工作中遇到向Spark集群提交多个任务,并且这些任务是需要同时执行的。但是遇到很多错误,所以把遇到的问题记录下来。 修改hadoop/etc/hadoop/yarn-site.xml文件 需要添加的配置<property> <name>yarn.nodemanager.aux-services.spar
spark应用yarn模式提交多个应用,一个Running,其它处于accepted状态
这篇文章解决我们的问题:https://blog.csdn.net/dandykang/article/details/48160927 以前只是开发,现在到了一家大数据刚起步公司,需要提交spark应用到yarn,每次只能运行一个,处于Running状态,其它处于Accepted状态,经过几天折腾,仍然只能运行两个spark应用,坚持了一下,终于解决。 在NodeManager中启动Exte...
Spark如何在一个SparkContext中提交多个任务
在使用spark处理数据的时候,大多数都是提交一个job执行,然后job内部会根据具体的任务,生成task任务,运行在多个进程中,比如读取的HDFS文件的数据,spark会加载所有的数据,然后根据block个数生成task数目,多个task运行中不同的进程中,是并行的,如果在同一个进程中一个JVM里面有多个task,那么多个task也可以并行,这是常见的使用方式。 考虑下面一种场景,在HDF
Spark独立集群下Application提交过程分析
本文主要对Spark 独立集群下Application提交过程进行了分析,首先通过一个整理的架构图展现了提交的流程,然后在从源码的角度对上面的流程进行了简要的描述。
谈Spark下并行执行多个Job的问题
本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。
「解决」spark on yarn上遇到的一个问题
昨天在yarn上提交spark任务一直出现一个错误INFO org.apache.hadoop.ipc.Client: Retrying connect to server: master/172.16.50 .131:9000. Already tried 0 time(s).网上查了半天说是看看yarn启动是否成功,我这才想起我忘启动yarn,说这个的意思是出现这种错误的原因就是yarn没有正常
spark源码阅读二-spark application运行过程
本篇文章主要讲述一个application的运行过程。 大体分为三部分:(1)SparkConf创建;(2)SparkContext创建;(3)任务执行。
如何在eclipse中同时运行多个Java Application
我自己在做socket编程时,要同时运行客户端和服务器端,除了同时打开两个终端窗口运行以外, 更方便的,直接在eclipse里面按照需要先后运行两个class(比如先run服务器后run客户端),后运行的并不会被覆盖掉,直接点击console右上角的Display Selected Console,切换console窗口。...
怎样在Eclipse里同时运行多个Java Application?
其实本来就是可以同时运行的,只是Console默认只
一个诡异的spark-submit运行问题(已解决)
今天在测试刚刚部署好的spark集群的时候,碰到了一个诡异的spark-submit问题。搜了一圈也没发现,结果意外的找到了原因,真是欲哭无泪! 问题:写好了一个计算Pi的程序,编译打包成 ComputePi.jar包,放到spark集群的master上,然后用命令 spark-submit --master spark://master1:7077 --class com.ibm.j
spark troubleshooting--YARN队列资源不足导致的application直接失败
troubleshooting YARN队列资源不足导致的application直接失败 现象: 如果说,你是基于yarn来提交spark。比如yarn-cluster或者yarn-client。 你可以指定提交到某个hadoop队列上的。每个队列都是可以有自己的资源的。 跟大家说一个生产环境中的,给spark用的yarn资源队列的情况:500G内存,200个cpu
Spark疑问3之spark 如何并行执行多个Job?
使用Spark的时候一般都是一个application的Job串行执行,如何并行执行? 如何提高spark对计算资源(CPU和内存等)的利用率? 1M数据10个action或者更多的action,如果串行效率低,如何并行执行job?-star
集群无法启动多个spark任务,资源无法分配问题
问题描述: 在集群上同时提交多个任务,但是发现集群的资源还有很多,但是任务却无法起来,一直处于Accepted状态 解决方法: 这种情况一般是由于yarn可调度的资源不够而并非集群的资源不够,修改Hadoop/etc/hadoop/capacity-scheduler.xml,将value从0.1改为0.5,增加yarn可调度的资源数 &amp;lt;property&amp;gt; &amp;lt;name&amp;g...
spark运行成功,8088web页面不显示活跃Application
只需要把代码中的设置运行模式的部分去掉就可以了 setMaster(&quot;local&quot;)的作用是设置运行模式为本地模式,web可以看到分布式模式的任务,但是看不到本地模式的,去掉.setMaster(&quot;local&quot;)即可...
spark在yarn-cluster模式下运行任务报错
spark在yarn-cluster模式下运行任务报错 不指定任何参数, 运行正常 spark-submit --master yarn-cluster --class com.chb.test.tongji.Test test.jar /apps/spark/source/ 00 当指定executor的配置,运行失败 spark-submit --master yarn --...
spark错误日志查看方法
查看错误日志yarn logs -applicationId application_1512098667219_5898489yarn logs -applicationId xxx执行方式spark-submit \ --master yarn-cluster \ --class com.jd.astron.jrdm.ClusterTest \ --num-executors 1 \ --
SparkApplication依赖第三方jar文件解决方式
SparkApplication依赖第三方jar文件解决方式
Spark杀死我们提交的application
项目需要,要对spark的一些任务进行监控,有些任务积压过多,要kill掉。 查询所有的任务; lcc@lcc spark-2.0.1-bin-hadoop2.7$ yarn application -list 18/07/12 15:01:39 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 18/07/...
在 YARN 上运行 Spark
翻译中...Running Spark on YARNSupport for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. 在Spark的0.6.0版本中已经支持在YARN(Hadoop NextGen)上运行的Spark,并在后续...
剖析剖析我们的ApplicationMaster
 ApplicationMaster 部分,这里是整个分布式程序的指挥中心, 为了追寻大神们的脚步,我们在源码里面添加了一些日志提示 ,跟着运行的轨迹,我们来翻开Master部分的迷雾。  且说上回我们说到 Client在申请了一个 Container 之后便把我们的jar提交到容器中执行了,接下来事情交给我们的 ApplicationMaster 了,我们在 main方法里面添加我们的日志信息...
spark-shell在yarn client模式下启动报错
spark-shell在yarn client模式下启动报错 17/10/26 19:16:12 ERROR cluster.YarnClientSchedulerBackend: Yarn application has already exited with state FINISHED! 17/10/26 19:16:12 ERROR client.TransportClient:
spark-submit提交程序遇到一个很奇葩的错误,求大神帮忙解决
今天用spark-submit提交程序,报了个错误:jarException in thread &quot;main&quot; java.lang.IllegalArgumentException: Missing application resource.        at org.apache.spark.launcher.CommandBuilderUtils.checkArgument(CommandB...
spark 在集群运行时遇到的一些问题
人工导航:1,Exceptionin thread &quot;main&quot;org.apache.hadoop.ipc.RemoteException(java.io.IOException): File/user/pangying/.sparkStaging/application_1522735609126_0001/__spark_libs__4275647205298765018.zipcould o...
Spark Application提交到集群中运行问题汇总
一、使用dfs.nameservices作为hdfs路径的时候找不到路径 解决方式: 在spark-default.conf中添加spark.files /opt/hadoop/etc/hadoop/hdfs-site.xml,/opt/hadoop/etc/hadoop/core-site.xml 二、用yarn-cluster模式运行的时候一直停留在Application report ...
Spark应用执行机制
Spark应用概念 Spark应用(Application)是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行,Spark应用的运行方式又可以分为Cluster模式和Client模式。 下面是Spark应用涉及的一些基本概念: Application:Spark
如何优雅地终止正在运行的Spark Streaming程序
转载原文地址:可以点击:https://www.iteblog.com/archives/1890.html进入原文阅读。   一直运行的Spark Streaming程序如何关闭呢?是直接使用kill命令强制关闭吗?这种手段是可以达到关闭的目的,但是带来的后果就是可能会导致数据的丢失,因为这时候如果程序正在处理接收到的数据,但是由于接收到kill命令,那它只能停止整个程
idea同时启动多个项目,启动不起来,以及打不开默认页面解决方法
因为以前用的开发工具是eclipse。在eclipse中启动多个相互引用的项目,或者不关联的项目,都是非常容易的,只需要创建tomcat实例即可,tomcat实例直接无项目关联关系。 但是现在使用的idea工具,就有问题了。 我现在的项目有三个,如下图: 其中api 是暴露出来的接口工程,api里面有controller,api与core工程通过dubbo+zookeeper 实现前后端
Spark——Job逻辑执行图
Job逻辑执行图典型的Job逻辑执行图如上所示,经过下面四个步骤可以得到最终执行结果:1.从数据源(可以是本地file,内存数据结构, HDFS,HBase等)读取数据创建最初的RDD。2.对RDD进行一系列的transformation()操作,每一个transformation()会产生一个或多个包含不同类型RDD。3.对最后的final RDD进行action()操作,每个partition...
一 spark on yarn cluster模式提交作业,一直处于ACCEPTED状态,改了Client模式后就正常了
1. 提交spark作业到yarn,采用client模式的时候作业可以运行,但是采用cluster模式的时候作业会一直初一accept状态。 背景:这个测试环境的资源比较小,提交作业后一直处于accept状态,所以把作业的配置也设置的小。 submit 语句: spark-submit \ spark-submit \ --class a.kafka_streaming.KafkaConsu...
在hadoop yarn上运行spark报错
hduser@master:/usr/local/hadoop/etc/hadoopHADOOPCONFDIR=/usr/local/hadoop/etc/hadoop/pyspark–masteryarn–deploy−modeclientPython2.7.14|Anaconda,Inc.|(default,Dec72017,17:05:42)[GCC7.2.0]onlinux2Type“he...
spark streaming 同时处理两个不同kafka集群的数据
如题,总是不那么完美,要处理的数据在两个不同的kafka集群里面,日子得过,问题也得解决,我们创建两个DStream,连接两个不同的kafka集群的不同topic,然后再把这两个DStream union在一起处理,代码如下: package com.kingnet import java.util import org.apache.spark.SparkConf import org.a
spark UI 显示已完成应用的历史信息
1,在HDFS 上创建放历史文件的目录 2,配置spark-env.sh的SPARK_HISTORY_OPTS=“-Dspark.eventLog.dir=第一步创建的目录” 3,配置spark-defaults.conf 的spark.eventLog.enabled=true,spark.eventLog.dir=第一步创建的目录,spark.eventLog.compress=true
Hue上查看spark运行报错信息(一)
点击Hue报错页面,找到application_ID 根据application_ID到yarn界面(http://bigdata.lhx.com:8088/cluster)找到完整信息 点击ID或者history进入logs界面 详细报错信息:spark找不到集群中asmp数据库 ERROR yarn.ApplicationMaster: User class threw except...
【Big Data 每日一题20180922】sparkstreaming同时消费多个topic的数据实现exactly-once的语义
最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧,已经测试过了.我把offest存到redis里了,当然也可以保存在zk,kafka,mysql,hbase中都可以,看自己的选择.(用了3个topic,每个topic5个partition.) ...
spark任务已经执行结束,但还显示RUNNING状态
spark的任务已经执行完成:scala> val line = sc.textFile("hdfs://vm122:9000/dblp.rdf") line: org.apache.spark.rdd.RDD[String] = hdfs://vm122:9000/dblp.rdf MapPartitionsRDD[1] at textFile at <console>:24scala> val
Spark Streaming中并行运行任务
在运行Spark Streaming程序时,有时我们需要并行化任务的执行。比如任务A需要每隔5s输出计算结果,任务B用到了时间窗口,每隔1hour计算一次并输出结果。如果全部串行运行的话,在运行任务B时,任务A就会被阻塞。可能B的执行需要3分钟,那这三分钟内A的计算结果就不能被实时看到了。在Spark程序内部(即每个Application中),任务是可以并行运行的。这个官网上有比较详细的介绍。但是S
CDH5.13集群通过Hue运行spark程序报错
报错信息: client token: N/A diagnostics: Application application_1536912246146_0002 failed 2 times due to AM Container for appattempt_1536912246146_0002_000002 exited with exitCode: -1000 For mor...
Spark应用运行流程
相关基本术语 ------------------------- Application:应用,即用户需要完成的应用程序。一般来说,这部分代码需要用户根据自己的需求来完成。这部分代码主要包括两部分:Driver和Executor。 Driver:顾名思义,驱动者,为Application准备运行环境,驱动并监控Application的运行。 Worker:当SparkContext申请到资
Spark运行流程
原文链接:点击打开链接 问题导读 1.Spark运行包含哪些流程? 2.本文认为Spark运行架构有哪些特点? 3.DAGScheduler的作用是什么? 4. RDD在Spark架构中是如何运行的? 5.Spark on Standalone运行包含哪些过程? 1.Spark运行基本流程参见下面示意图 1.构建Spark Applic
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 深度学习如何运行到大数据 同时学习几门编程语言