用spark提供的java API写的程序怎么远程提交到集群上运行。

小弟最近在做一个机器学习平台,想通过前台选择数据源、算法、参数之类的东西,由后台程序提交到spark集群上调用sparkML库来跑出结果,然后把结果返回之后在前台渲染出效果。实验室之前有搭spark集群,这两天看了一下java提交任务上去spark集群的东西,似乎都是要先把东西打jar包,再传服务器通过spark-submit,这样跟需求就不符了,恳求各位使用java调用过spark的大侠答疑解惑。委实是之前没用过这方面的使用经验。之前有找过一些代码如下。

public class TestUtil {


    public static void main(String[] args){


        System.setProperty("user.name", "root");
        SparkConf conf = new SparkConf().setAppName("Spark Java API 学习")
                .setMaster("spark://211.87.227.79:7077");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> users = sc.textFile("hdfs://211.87.227.79:8020/input/wordcount.txt");
        System.out.println(users.first());
    }

}

看了spark的UI这个任务确实也提交上去了,但是idea的控制台一直重复地报这一段

图片说明

sparkUI如图。

图片说明

CSDN没币了没法悬赏。要是有大侠可以解决,可以有偿,留联系方式就行。

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
提交Spark程序到YARN集群上面运行
在YARN群集上运行示例wordcount.py程序以计算知识数据集中单词的频率: $ spark-submit --master yarn-client wordcount.py /loudacre/kb/*  
编写Spark程序并提交到集群上运行
使用SCALA IDE, 編写Spark应用程序,提交到Spark集群上运行,最后查看结果
使用idea编写spark程序并提交到yarn集群例子
需提前安装jdk、scala 1.创建新项目 2.增加Maven 3.修改pom.xml文件 &amp;amp;amp;lt;?xml version=&amp;amp;quot;1.0&amp;amp;quot; encoding=&amp;amp;quot;UTF-8&amp;amp;quot;?&amp;amp;amp;gt; &amp;amp;amp;lt;project xmlns=&amp;amp;quot;http://maven.apache.org/POM/4
本地Spark程序提交到hadoop集群运行流程
1.本地环境准备 本文是将eclipse开发环境下的maven+Spark+scala程序移植到集群环境上执行过程,写的很粗糙,见谅。 本地用eclipse编写Spark小程序,完成从txt文件读取数据操作。 本地maven+Spark+scala环境就不多说了,如果配置出问题,就下载最新的eclipse然后从商店装插件吧。 注意在maven的配置文件pom.xml中插入Spark引用:
scala编写的Spark程序远程提交到服务器集群上运行
一.需要的软件: eclipse 相应版本的scalaIDE 与集群一样的spark安装包,主要是要用到spark中的jar包 与集群一样的hadoop安装包 与hadoop版本对应的winutil.exe,hadoop.dll(只要版本差距不大不一样也没关系) 二.步骤 (一)在eclipse中安装对应版本的ScalaIDE,具体安装见网上。(二)复制winutil.exe,hadoop.dll
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
Windows 上面搭建 Spark + Pycharm/idea scala/python 本地编写Spark程序,测试通过后再提交到Linux集群上
IDEA 打jar,提交spark集群运行
1、idea打开file,选择projectstructure,点击Artifacts,如下图 选择add JAREmpty 然后点击OK   2、选择bulid Artifacts 点击bulid 就会打成jar 3、通过winSCP把jar上传到服务器/var/lib/hadoop-hdfs/application/bash/jar/testjjp.jar 4
eclipse或idea中开发spark程序本地运行以及提交集群运行
Windows开发hadoop/spark配置 1、将hadoop压缩文件解压到相应目录。像配置jdk环境变量一样配置HADOOP_HOME到hadoop目录。把%HADOOP_HOME%\bin加入path。 2、Windows下开发需要将共享的bin目录覆盖hadoop原有bin目录。如果还不行,将共享bin目录下的hadoop.dll复制到c:\windows\system32目录下,可
win10本地调试spark并提交到虚拟机spark集群中(scala版本)
Win10环境准备: 1.1 jdk,scala,sbt安装 Jdk安装:1.8.0_191 Scala安装: 2.11.6 Sbt安装: 1.2.6 都是默认安装,建议跟自己spark集群中安装的版本一致,可以升级spark集群的版本。否则后续需要在intellij中修改兼容性。 这三个安装后找到此计算机-&gt;属性-&gt;高级系统设置,选择环境变量,然后添加这三者的环境变量,步骤...
本地idea开发mapreduce程序提交到远程hadoop集群执行
通过idea开发mapreduce程序并直接run,提交到远程hadoop集群执行mapreduce。 简要流程:本地开发mapreduce程序–&amp;amp;gt;设置yarn 模式 --&amp;amp;gt; 直接本地run–&amp;amp;gt;远程集群执行mapreduce程序; 完整的流程:本地开发mapreduce程序——&amp;amp;gt; 设置yarn模式——&amp;amp;gt;初次编译产生jar文件——&amp;amp;gt;增加 job.setJar(&amp;quo
python代码提交到spark集群并设定定时任务
一、启动thrift 因为用到了happybase,需要先在服务器上上启动thrift服务, 关闭终端thrift继续运行命令如下: nohup hbase thrift -p 9090 start 二、linux从本地安装python库 以thriftpy为例 解压 tar zxvf thriftpy-0.3.9.tar.gz 回到当前目录 cd thriftpy-0.3.9 编译 pyth...
spark 提交任务到yarn上运行
1、在idea上先写好,自己的代码并进行测试,这里贴一个很简单的统计单词个数的代码 package spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]) { /...
Spark入门(二):打包程序、提交任务到集群
1.环境工具1.1环境 系统 centos jdk 1.8.0_144 scala 2.11.8 hadoop 2.7.3 spark 2.1.0 1.2打包工具IDEA + sbt2.打包2.1安装插件需要预先安装scala插件,点击File ->Setting ->Plugins ->输入框输入scala->install 安装完成需要重启IDE2.2创建
pySaprk,pycharm编写spark的python脚本,远程上传执行和本地模式执行
上次,我们用scala来编写来spark,这次我们用python来写spark脚本,我们在上篇博客中说过,spark的版本是2.2.0,scala的版本是2.1.x,这样我们在集群中,由于spark的版本,没有办法使用pySpark wordcount.py 来执行脚本,只能使用spark submit wordcount.py来执行脚本,在Linux环境是这样执行的,但是我们写脚本,可以直接在L...
使用java代码来实现动态提交spark任务到集群
场景 执行java代码的一个方法,这个动作触发提交spark任务到运行在yarn上的spark 集群 开始 Spark任务介绍 执行spark读取Hive中的一个表,这个表是用Hive来管理的HBASE表。统计这个表的总记录数。 具体代码如下:         objectTable_count {   def main(args: Array[String]): Unit = { ...
在JAVA应用中远程提交MapReduce程序至Hadoop集群运行
由于在单独的JAVA应用中,程序没有指明集群的一些配置信息,导致程序不知道集群的位置以及其他的一些信息,故首先在配置类中,即Configuration,需要指明集群的位置,配置代码如下: Configuration conf = new Configuration(true); conf.set("fs.default.name", "hdfs://192.168.43.84:9
spark程序提交集群和监控
运行模式 Spark 应用在集群上作为独立的进程组来运行,在 main 程序中通过 SparkContext 来协调(称之为 driver 程序) 1.每个应用获取到它自己的 Executor 进程,它们会保持在整个应用的生命周期中并且在多个线程中运行 Task(任务)。这样做的优点是把应用互相隔离,在调度方面(每个 driver 调度它自己的 task)和 Executor
Spark作业提交到集群执行详解
Spark作业提交到集群的命令格式如下 ./bin/spark-submit \ --class &amp;lt;main-class&amp;gt; \ --master &amp;lt;master-url&amp;gt; \ --deploy-mode &amp;lt;deploy-mode&amp;gt; \ --conf &amp;lt;key&amp;gt;=&amp;lt;value&amp;gt; \ ... # other optio...
在本地将spark作业运行到远程集群
在本地IDE里直接运行spark程序操作远程集群一般运行spark作业的方式有两种: 本机调试,通过设置master为local模式运行spark作业,这种方式一般用于调试,不用连接远程集群。 集群运行。一般本机调试通过后会将作业打成jar包通过spark-submit提交运行。生产环境一般使用这种方式。 本文介绍第3种方式: 在本地将spark作业运行到远程集群中。这种方式比较少见,很多人认为不可
Storm实战---提交topology到storm集群
一、storm常用命令   通过执行命令storm就可以列出storm的所有命令列表了。   jar命令负责把topolopy提交到集群,并执行它,通过StormSubmitter执行主类。 storm jar path-to-topology-jar class-with-the-main arg1 arg2 argN   path-to-topology-jar是拓扑jar文件的...
SparkStreaming 搭建《二》运行SparkStreaming在集群上提交方式
本教程主要总结SparkStreaming并打包在集群上提交的方式。 需要先开启 $ nc -lk 9999 代码: import org.apache.spark.SparkConf import org.apache.spark.storage.StorageLevel import org.apache.spark.streaming.{Seconds, Streaming...
pyspark 程序头与程序提交集群命令
这里介绍使用SparkContext的pyspark注册头,通过SparkConf对SparkContext进行配置,SparkConf可以设置各种配置参数,如下面所示: from pyspark.context import SparkContext from pyspark.sql import SQLContext from pyspark.context import SparkConf...
spark提交任务采用yarn集群提交方法
spark提交任务采用yarn集群提交方法 先启动 hadoop集群 再启动yarn 再启动spark集群 spark提交任务命令 spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /home/hadoop3/app/spark/examples/jar...
本地上传到远程命令,以及spark的submit指令
sc@sc-All-Series:~/PycharmProjects$ scp -r risk-model scdata@192.168.31.10:/home/scdata/app/python/ scdata@sc-bd-10:~/app/python/risk-model/cs_clean$ spark-submit --master spark://192.168.31.10:7077 ...
spark程序提交集群,找不到类的错误
1.创建工程,编译一个项目 如果出现这种错误,这个错误是由于Junit版本造成的,可以删掉Test,和pom.xml文件中Junit的相关依赖, 即删掉这两个Scala类:和pom.xml文件中的Junit依赖 刷新Maven依赖 2.写pom文件 &amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;UTF-8&quot;?&amp;gt; &amp;lt;project xmlns=&quot;http://...
Spark Yarn 提交作业
初学Spark时,部署的是Standalone模式(集成了HA),写的测试程序一般创建上下文时如下: 此处master设置为管理节点的集群地址(spark webui上显示的地址) 。 之后将测试代码打包成jar包,上传到服务器,使用spark-submit提交作业。 提交命令: spark-submit --master spark://s44:7077 --name MyWor...
大数据学习之路88-将jar包提交到spark集群需要注意的
我们可以将上一节将数据写入MySql的程序用maven将程序打包,然后将jar包提交到spark集群。 执行语句如下: 我们可以看到这里指定了两次mysql的连接驱动,这是为什么呢? 因为Driver端获取数据库中的元数据信息的时候需要连接驱动,executor真正执行的时候也需要和数据库打交道,也需要数据库的连接驱动。...
java提交spark任务到yarn平台
一、背景     采用spark的方式处理,所以需要将spark的功能集成到代码,采用yarn客户端的方式管理spark任务。不需要将cdh的一些配置文件放到resource路径下,只需要配置一些配置即可,非常方便   二、任务管理架构   三、接口 1、maven坐标 &amp;lt;!-- spark依赖 --&amp;gt;    &amp;lt;dependency&amp;gt;        &amp;...
打包Spark程序并上传到集群
前期准备 配置JDK,Scala,Hadoop,Spark运行环境,安装IDEA。 PS:注意spark、Scala、Hadoop之间的版本对应关系,否则可能会报错。 在IDEA中用sbt构建Scala工程 IDEA中点击File-&amp;gt;new-&amp;gt;Project 之后填写项目名称,存储路径,选择JDK版本,Sbt版本,Scala版本   其中Scala版本...
Spark用IntelliJ + maven打jar包上传到Spark集群上运行
因为需要用Hadoop的HDFS所以要启动Hadoop 1.启动Hadoop 2.启动Spark集群 3.打开IntelliJ 创建maven项目 然后配置maven项目的pom.xml文件 内容如下 &amp;lt;properties&amp;gt; &amp;lt;maven.compiler.source&amp;gt;1.8&amp;lt;/maven.compiler.source&amp;gt; &amp;lt...
Hadoop本地提交到集群中
本地调试mapreduce,mapreduce多种运行方式,hadoop中idea远程调试
IDEA将spark程序打成jar包上传到集群运行
一、基于IDEA插件 File-&gt;Project Structure-&gt;Artifacts-&gt;"+"-&gt;Jars-&gt;From modules with dependencies 然后Build-&gt;Build Artifacts-&gt;Build 生成的jar包在左侧目录结构中可以看到(这个生成位置...
【四】storm作业提交到集群上运行
maven的pom.xml&amp;lt;project xmlns=&quot;http://maven.apache.org/POM/4.0.0&quot; xmlns:xsi=&quot;http://www.w3.org/2001/XMLSchema-instance&quot; xsi:schemaLocation=&quot;http://maven.apache.org/POM/4.0.0 http://maven.apache.org...
eclipse开发spark程序配置在集群上运行
这篇bolg讲一下,IDE开发的spark程序如何提交到集群上运行。 首先保证你的集群是运行成功的,集群搭建可以参考[url]http://kevin12.iteye.com/blog/2273556[/url] 开发集群测试的spark wordcount程序; [b]1.hdfs数据准备.[/b] 先将README.md文件上传到hdfs上的/library/wordcount/i...
Spark1.5.2在eclipse生成jar提交到集群运行
Spark1.5.2在eclipse生成jar提交到集群运行 环境: window7 ubuntu spark1.5.2 1.WordCountSpark.scala代码: //class WordCountSpark { // //} import org.apache.spark._ import SparkContext._ object WordCount
在Eclipse中提交作业至远程的Hadoop集群上执行
在Eclipse中提交作业至远程的Hadoop集群上执行
Spark on yarn--几种提交集群运行spark程序的方式
今天看了spark的yarn配置,本来想着spark在hadoop集群上启动之后,还需要配置spark才能让yarn来管理和调度spark的资源,原来启动master和worker之后就会让yarn来原理spark的资源,因为我使用了spark和hadoop集群的高可用,可能是不是这个问题呢,还不太清楚,暂且记住,等我再研究研究 因为我使用zookeeper集群来进行管理,所以我提交任务
使用idea开发Java的Wordcount程序并提交到spark集群运行
首先,我们需要确保集群已搭建好,win10安装idea,打开idea,选择创建maven项目 然后next,finish。 工程打开后再pom.xml中添加依赖,选择启动导入依赖 &lt;?xml version="1.0" encoding="UTF-8"?&gt; &lt;project xmlns="http://maven.apache.org/POM/4.0.0" ...
如何将编写的py文件提交到spark并在集群下执行job
没学过java的时候用Spark可能一开始就会直接用Python对接,因为如果是创建scala语言的话,会存在很多问题,包括生成scala类或者object,以及最终在idea里面编译成jar包,因为需求紧急,所以就直接用Python来写了,那么将写完的 python文件如果只是在某个集群中的一台机器上运行,那么会发现实际整个运转都是在本地执行的,并没有做到集群运算,所以这里需要使用的就是进入到s...
通过jupyter远程编写代码,并远程提交到spark集群执行
几个月前折腾了一番jupyter(web 代码编辑器),感觉jupyter在编写某些科学文章是比较灵活.不过几乎是单机版的,在生产环境应用有限.之前因为需要在集群上执行编辑的代码,遂查找资料,又折腾了一番,使得jupyter可以应用于集群环境.我们的需求类似使用者可以写点简单的程序,然后在集群上面执行代码. 程序是python语言的.所以,集群是pyspark集群.在spark包下面,会有pysp...

相似问题

3
spark on yarn 如何修改yarn监控界面的user
1
spark-submit命令运行jar包报空指针,Java -jar命令可以运行。
2
spark读取不了本地文件是怎么回事
1
spark sparkcontext 初始化失败
1
spark-submit提交application后执行的是之前的代码,不是最新代码
4
关于spark离线程序读写本地文件的问题
2
如何用spark实现:编写spark程序调用外部程序或者调用动态链接库函数,对批量文件进行处理?
2
eclipse写的spark,不打jar包,如何提交到spark集群?
1
Spark提交作业为什么一定要conf.setJars(),它的具体作用到底是什么?
2
spark submit 提交集群任务后,spark Web UI界面不显示,但是有4040界面,显示local模式
1
spark一般任务的初始并行度怎么确定?
1
spark shell在存运算结果到hdfs时报java.io.IOException: Not a file: hdfs://mini1:9000/spark/res
2
在Java web中怎么提交一个spark job任务?
2
当jar在hdfs的时候提交spark job报错
1
使用livy提交spark任务失败
1
spark on yarn 8088界面只有一个程序是Running状态,其他都是ACCEPTED状态
4
spark--java.lang.ArrayIndexOutOfBoundsException: 10582
0
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
2
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
1
spark sql如何执行delete