spark on yarn 如何修改yarn监控界面的user 5C

我在做一个windows环境下的服务器用于 提交spark任务到yarn集群上的工作,但这样一来,每次提交的任务都是那台服务器的名称,如何动态修改 该值??

0

3个回答

你说的应该是yarn 任务上显示的用户名吧 这个和spark其实没啥关系 spark只是一种yarn任务而已 你该找找windows上 yarn 怎么设置用户名。

1
Coder_Lotus
一只有梦想的咸鱼 是这个意思!还请大神指点一二
一年多之前 回复
0
Coder_Lotus
一只有梦想的咸鱼 额。。好像并没有提到解决我这个问题的方法。。。我现在是可以提交spark程序到yarn集群,并且运行成功的,只是问题在于每个应用程序的用户都是windows提交任务的那台服务器的名称,我如何在提交任务时,自定义application 用户名?
一年多之前 回复

进入yarn.xml文件进行参数修改

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程
在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外); 辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。 现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。 搜了一下帖子,2个步骤:
yarn状态机可视化
YARN中实现了多个状态机对象,包括ResourceManager中的RMAppImpl、RMApp-AttemptImpl、RMContainerImpl和RMNodeImpl,NodeManager中的ApplicationImpl、ContainerImpl和LocalizedResource,MRAppMaster中的JobImpl、TaskImpl和TaskAttemptImpl等。为了
写个yarn的监控
在星球里和微信群里很多朋友都有疑惑,如何监控 yarn 上 spark 或者 mr 应用的存活状态,浪尖今天在这里分享一下实现方法,实际上只需要简单的几行代码即可。首先是...
Hadoop(HDFS、YARN、HBase、Hive和Spark等)默认端口表
端口 作用 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 50070 dfs.namenode.http-address 50470 dfs.namenode.https-ad
Spark源码学习(9)——Spark On Yarn
本文要解决的问题:了解Spark在Yarn平台上的运行过程。修改配置文件首先需要修改配置文件spark-env.sh。在这个文件中需要添加两个属性:Export HADOOP_HOME=/../hadoop..ExportHADOOP_CONF_DIR=/../hadoop/etc/hadoop这里,一个是要hadoop的home目录。一个是配置文件目录。还需要配置一个就是spark-default
让 Spark Streaming 程序在 YARN 集群上长时间运行(二)—— 日志、监控、Metrics
前段时间看到了外国朋友写的一篇文章,觉得还不错,于是就把他翻译一下,供大家参考和学习。 如果没看过第一篇文章,建议先去看一下上一篇文章哈,这里是接着上一篇文章来写的哈~ 日志 访问 Spark 应用程序日志的最简单方法是配置 Log4j 控制台 appender,等待应用程序终止并使用 yarn logs -applicationId [applicationId] 命令。 ...
YARN 内存参数终极详解
很多朋友在刚开始搭建和使用 YARN 集群的时候,很容易就被纷繁复杂的配置参数搞晕了:参数名称相近、新老命名掺杂、文档说明模糊 。特别是那几个关于内存的配置参数,即使看好几遍文档也不能完全弄懂含义不说,配置时一不小心就会张冠李戴,犯错误。 如果你同样遇到了上面的问题,没有关系,在这篇文章中,我就为大家梳理一下 YARN 的几个不易理解的内存配置参数,并结合源码阐述它们的作用和原理
【SolrWithHDFS】Yarn管理页面无法查看History历史信息
现象1 如下URL不能正常访问,报错Not Found: job_xxx 2018-11-10 18:21:57,148 | INFO | main | The url to track the job: https://IP:26001/proxy/application_1541821710732_0005/ | org.apache.hadoop.mapreduce.Job.submit(...
spark-on-yarn作业提交缓慢优化
spark on yanr方式运行计算作业,发现作业提交缓慢 根据日志,提交缓慢主要在两个过程: 一、uploading file太慢 17/05/09 10:13:28 INFO yarn.Client: Uploading resource file:/opt/cloudera/parcels/spark-1.6.3-bin-hadoop2.6/lib/spark-assembl
yarn 内存计算
Spark的Excutor的Container内存有两大部分组成: 堆外内存和Excutor内存   堆外内存(spark.yarn.executor.memoryOverhead)       主要用于JVM自身的开销。 默认: MAX(executorMemory * 0.10, 384m)  Excutor内存(spark.executor.memory)  Execution: ...
如何优雅的关闭基于yarn的SparkStreaming程序
yarn application --listyarn application -kill application_1518954379926_0063
spark on-yarn启动方式,linux脚本判断yarn任务是否存在
#!bin/bash bb="RUNNING" aa=`yarn application -list |grep WA_Zhuqinghua_Order | awk '{print $6}'` if [ "$aa" != "$bb" ] then echo "开始启动 job Mq_Es_Zhuqinghua_Order" EXTRA_JVM_OPTS="-Dsun.jnu.encod...
spark1.4.0基于yarn的安装心得体会
目前线上用的是cdh5.3.2中内嵌的spark1.2.0版本,该版本BUG还是蛮多的,尤其是一些spark sql的BUG,简直不能忍。spark1.4.0新出的支持SparkR,其他用R的同时很期待试用该版本看看sparkR好不好用,于是乎打算升级一下spark的版本。 以前都是在cloudera manager中一件安装的spark,感觉好轻松愉快,现在要独立安装一个基于yarn的spar
Spark on yarn模式的参数设置即调优
1 启动方式 执行命令./spark-shell --master yarn默认运行的是client模式。 执行./spark-shell --master yarn-client或者./spark-shell --master yarn --deploy-mode client运行的也是client。 执行./spark-shell --master yarn-cluster或者./spar...
Spark On YARN 一些基本参数
本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。说明按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。当在YARN上运行Spark作业,每个Spark executor作为一...
spark-yarn查看集群资源
    spark-submit --master yarn --deploy-mode cluster --executor-cores 4 --num-executors 3 --executor-memory 10g --class solr.CeShi sbt-solr-assembly08.jarApps Submitted:总共提交了多少个JOb(122)Apps Running:当前...
spark on yarn作业运行的jar包缓存优化
这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。
Spark on YARN占用资源分析 - Spark 内存模型
Spark的Excutor的Container内存有两大部分组成:堆外内存和Excutor内存A)   堆外内存(spark.yarn.executor.memoryOverhead)  主要用于JVM自身的开销。默认:MAX(executorMemory*0.10,384m)B)   Excutor内存(spark.executor.memory)   Execution:shuffle、排序、...
spark系列-应用篇之通过yarn api提交Spark任务
前言 在工作中,大部使用的都是hadoop和spark的shell命令,或者通过java或者scala编写代码。最近工作涉及到通过yarn api处理spark任务,感觉yarn的api还是挺全面的,但是调用时需要传入很多参数,而且会出现一些诡异的问题。虽然最终使用livy来提交任务,但是通过yarn api提交任务可以帮助使用者更好的理解yarn,而且使用yarn查询任务还是不错的。至于liv...
杀掉YARN上面的SparkSubmit任务
yarn application -kill appid //appid不需要引号就可以结束YARN上面跑的出现异常无法关闭的任务了。 :)
spark on yarn 出现的问题(一)
测试spark on yarn spark版本:spark-0.9.0-incubating-bin-hadoop2 WordCount.scala 代码: [code="java"] import org.apache.spark._ import SparkContext._ object WordCount { def main(args: Array[Stri...
Spark on YARN的重要参数
Spark属性或者去源码找Class类 SparkSubmitArguments,最全了属性名称默认含义spark.yarn.am.memory512m用于客户端模式下的YARN Application Master的内存量,格式与JVM内存字符串(例如512m,2g)相同。在集群模式下,spark.driver.memory改为使用。使用小写字母后缀,例如k,m,g,t,和p,为kibi-,me...
spark-submit到yarn上遇到的各种坑
spark-submit到yarn上遇到的各种坑 1、 对于sbt package 稍微搬动了code的位置,又要重新下载lib,所以不要移动代码位置。 后面没有搬动code,就没重新下载库了,而且每次package速度很快,1秒左右 2、 175MB大小的文件上传到hdfs一直卡住,思考原因: 权限问题?路径问题?磁盘容量问题? 后来就上传一个3KB的文件,边上传边googl
yarn监控---获取任务的状态信息
简介 生产环境大多数任务都会提交到yarn上去运行,所有如何获取任务在yarn上的状态以及信息,非常重要。如果能获取任务在yarn上的状态和信息,那么我们就能及时发现任务出现的问题。我们可以通过java或者python去获取yarn任务的信息。 java版 第一步:把yarn-site.xml文件导入到监控系统(meavn工程)的resources文件下 第二步:编写...
spark提交任务采用yarn集群提交方法
spark提交任务采用yarn集群提交方法 先启动 hadoop集群 再启动yarn 再启动spark集群 spark提交任务命令 spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /home/hadoop3/app/spark/examples/jar...
正确提交spark到yarn的demo
    通过Spark-submit在xshell提交命令行,如果集群配置了keberos的话需要在打包的jar中进行认证,认证文件上传到节点并且需要分发到每一个节点,节点之间需要无密码ssh登录。     因为是通过Spark-submit提交程序,所以在代码当中的SparkConf设置为 .setMaster("yarn-cluster") 如果提交显示classnotfound可能是...
spark on yarn【在yarn上提交spark 程序配置及实现方式】
spark on yarn
yarn-cluster模式spark应用客户端与集群的通信端口
Spark应用在on yarn模式下运行,需要打开集群中的节点的端口以便完成应用的提交和运行。下面针对yarn-cluster模式下提交spark应用需要的集群端口进行测试。 非安全集群场景下 测试结论: 集群外节点yarn-clsuter模式下提交spark应用,需要连接ResourceManager完成app的提交,同时也需要上传部分文件到hdfs以供...
CDH 5.8 namenode增加内存后重启后碰到的问题
增加内存步骤   停机顺序: 停止所有服务(spark程序,flume) 停止Cloudera Management Service 停止CDH agent  248/249: service cloudera-scm-agent stop 停掉CDH 服务 248 :service cloudera-scm-server stop 停掉spark 249 /opt/spark2/s...
HADOOP集群优化——CPU、内存、磁盘IO、YARN监控
目录 hadoop集群优化指标---CPU、内存、磁盘IO、YARN监控 Linux性能监测:CPU篇 Linux性能监测:内存篇 Linux性能监测:磁盘IO篇 Linux性能监测:YARN篇 写在前面:本文主要描述了工作中常用到的一些集群监控命令,对资源合理利用可以提升性能优化效率。     Hadoop作业执行,执行速率与资源息息相关。在作业执行过程中,对集群进行监测、采集可以...
CDH集群添加Kerberos并使用Java代码调用HDFS和Spark on YARN
0x0 背景 由于CDH默认的权限管理机制过于简单,不能够保证HADOOP集群的安全性,因此,引入了Kerberos作为安全管理服务。 0x1 安装kerberos服务 CDH提供了关于整合kerberos服务的向导,在整合kerberos之前,必须要有kerberos服务。下面,介绍一下如何安装kerberos服务。 1. 安装kerberos server和kdc(Key Dist...
Spark作业信息的获取
提前说明 本文仅讨论运行在Yarn模式下作业信息的获取,至于获取其它模式下的作业信息,请见参考博文1。 官方文档见Spark1.6.1–Monitoring and Instrumentation。 作业信息的查看正在运行作业一般作业运行后,可打开http://<driver-node>:4040查看正在运行作业的情形,如下所示, 历史作业查看打开spark-defaults.conf文件,增加如
Hive使用Spark on Yarn作为执行引擎,yarn资源调度FAIR配置
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题: Hive的版本和Spark的版本要匹配; 具体来说,你使用的Hive版本编译时候用的哪个版本的Spark,那么就需要使用相同版本的Spark,可以在Hive的pom.xml中查看spark.version来确定; Hive root pom.xml’s ...
spark on yarn日志过大问题
1.在standlone模式下,为了减少日志在磁盘占用的输出的量,可以设置一下几个参数。 spark.executor.logs.rolling.maxRetainedFiles spark.executor.logs.rolling.enableCompression spark.executor.logs.rolling.maxSize spark.executor.logs.roll...
第1章 对运行在YARN上的Spark进行性能调优
第1章  对运行在YARN上的Spark进行性能调优1.1      运行环境Jar包管理及数据本地性原理调优实践1.1.1运行环境Jar包管理及和数据本地性原理在YARN上运行Spark需要在Spark-env.sh或环境变量中配置HADOOP_CONF_DIR或YARN_CONF_DIR目录指向Hadoop的配置文件。Spark-default.conf中配置Spark.YARN.jars指向
[译]运行在YARN上的Spark程序的Executor,Cores和Memory的分配
好久没更新了,。。。太懒了。 在跑Spark-On-Yarn程序的时候,往往会对几个参数(num-executors,executor-cores,executor-memory等)理解很模糊,从而凭感觉地去指定值,这是不符合有追求程序员信仰的。因此,搞懂它们,很有必要。 本文翻译自https://spoddutur.github.io/spark-not...
Spark on Yarn遇到的几个问题
1 概述     Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。     在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。 2 防火墙     部署好Spark
Spark在Yarn上的动态资源分配
参考地址:http://spark.apache.org/docs/1.5.2/job-scheduling.html#configuration-and-setup 1.配置hadoop/etc/yarn-site.xml   yarn.nodemanager.aux-services   mapreduce_shuffle,spark_shuffle   yar
Spark_Spark on YARN 提交配置文件,读取配置文件
  Spark ON YARN 的官方文档,基于Spark 2.1.1 http://spark.apache.org/docs/2.1.1/running-on-yarn.html To use a custom log4j configuration for the application master or executors, here are the options: upl...
Spark on Yarn的运行原理
一、YARN是集群的资源管理系统 1、ResourceManager:负责整个集群的资源管理和分配。 2、ApplicationMaster:YARN中每个Application对应一个AM进程,负责与RM协商获取资源,获取资源后告诉NodeManager为其启动Container。 3、NodeManager:每个节点的资源和任务管理器,负责启动/停止Container,并监视资源使用情况
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据yarn教程 人工智能跨界学习