big_bow 2018-02-23 01:04 采纳率: 66.7%
浏览 3279
已采纳

spark 如何 多个application同时运行不报错

如题,在代码层面,已经设置了config的
set("spark.driver.allowMultipleContexts","true")
但是同时两个任务提交的时候还是会出现两个任务都阻塞掉的问题
求教下,这个如何友好的优化,谢谢啦

  • 写回答

6条回答 默认 最新

  • qq_41688011 2018-02-23 01:14
    关注

    在spark的Job Scheduling中介绍了spark多个任务同时执行,相关链接为:

    https://spark.apache.org/docs/1.2.0/job-scheduling.html

    spark要实现多个application同时运行,涉及到多个application的资源共享。在spark on yarn模式下,yarn可以用来管理集群资源。为了能够比较好的利用集群的内存资源和cpu资源,需要使用spark的Dynamic Resource Allocation 功能
    
       Dynamic Resource Allocation有一个问题,就是executor空闲的时候,executor会被remove,但是executor执行后的数据结果很可能被其它executor使用,为了解决这个问题spark需要启动external shfuffle service,相关配置为往yarn-site.xml文件加入如下内容:
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 Pythontxt文本可视化
  • ¥15 如何基于Ryu环境下使用scapy包进行数据包构造
  • ¥15 springboot国际化
  • ¥15 搭建QEMU环境运行OP-TEE出现错误
  • ¥15 Minifilter文件保护
  • ¥15 有限元软件终止时间超过设定值
  • ¥15 onvif框架引用一直报错
  • ¥50 C#和C++混合编程,使用CLR托管,报错System.Runtime.InteropServices.SEHException
  • ¥30 .NET使用sqlite发布后报错
  • ¥15 Unity在WebGL平台导出Word报错问题