用spark提供的java API写的程序怎么远程提交到集群上运行。

小弟最近在做一个机器学习平台，想通过前台选择数据源、算法、参数之类的东西，由后台程序提交到spark集群上调用sparkML库来跑出结果，然后把结果返回之后在前台渲染出效果。实验室之前有搭spark集群，这两天看了一下java提交任务上去spark集群的东西，似乎都是要先把东西打jar包，再传服务器通过spark-submit，这样跟需求就不符了，恳求各位使用java调用过spark的大侠答疑解惑。委实是之前没用过这方面的使用经验。之前有找过一些代码如下。

public class TestUtil {


    public static void main(String[] args){


        System.setProperty("user.name", "root");
        SparkConf conf = new SparkConf().setAppName("Spark Java API 学习")
                .setMaster("spark://211.87.227.79:7077");
        JavaSparkContext sc = new JavaSparkContext(conf);
        JavaRDD<String> users = sc.textFile("hdfs://211.87.227.79:8020/input/wordcount.txt");
        System.out.println(users.first());
    }

}

看了spark的UI这个任务确实也提交上去了，但是idea的控制台一直重复地报这一段

sparkUI如图。

CSDN没币了没法悬赏。要是有大侠可以解决，可以有偿，留联系方式就行。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

你知我知皆知 2024-08-07 17:22

关注

以下回答参考 皆我百晓生、券券喵儿 等免费微信小程序相关内容作答，并由本人整理回复。

你已经正确地设置了JavaSparkContext并执行了一个简单的MapReduce作业。如果你想要将你的代码与Spark集群连接起来，你需要实现一个接口或类，该类能够处理Spark的API，并且能够发送和接收Spark作业。

以下是一个基本的例子，展示了如何创建一个新的SparkContext实例：

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaSparkContext;

public class SparkJob {
    private static final String SCHEMA_FILE_PATH = "/path/to/schema.json";
    private static final String DATA_FILE_PATH = "/path/to/data.csv";

    public static void main(String[] args) throws Exception {
        SparkConf sparkConf = new SparkConf()
            .setAppName("MyApp")
            .setMaster("local[*]")
            .set("spark.sql.warehouse.dir", "/tmp/spark-warehouse");

        JavaSparkContext sc = new JavaSparkContext(sparkConf);

        // Read the data from a CSV file
        JavaPairRDD<String, Integer> data = sc.textFile(DATA_FILE_PATH)
            .mapToPair(line -> line.split(","))
            .mapToPair(row -> new Tuple2<>(row[0], Integer.parseInt(row[1])));

        // Write the result to a JSON file
        data.saveAsTextFile(SCHEMA_FILE_PATH);

        sc.close();
    }
}

在这个例子中，我们首先设置了一个SparkConf对象，其中包含了一些默认的配置信息。然后，我们创建了一个JavaSparkContext实例，并读取了CSV文件的数据。最后，我们将数据写入JSON格式的文件。

如果你想让这个作业能够在Spark集群上运行，你需要实现一个方法，该方法接受一个SparkSession对象作为输入，并返回一个结果集。例如，你可以这样做：

import org.apache.spark.api.java.function.Function;
import scala.Tuple2;
import java.util.Arrays;

public class SparkJob {

    public static void main(String[] args) throws Exception {
        SparkConf sparkConf = new SparkConf()
            .setAppName("MyApp")
            .setMaster("local[*]")
            .set("spark.sql.warehouse.dir", "/tmp/spark-warehouse");

        JavaSparkContext sc = new JavaSparkContext(sparkConf);

        // Read the data from a CSV file
        JavaPairRDD<String, Integer> data = sc.textFile("/path/to/data.csv")
            .mapToPair(line -> line.split(","))
            .mapToPair(row -> new Tuple2<>(row[0], Integer.parseInt(row[1])));

        // Write the result to a JSON file
        Function<Tuple2<String, Integer>, String> mapper = (pair) -> pair._1 + "," + pair._2;

        data.map(mapper).saveAsTextFile("/path/to/output.txt");

        sc.close();
    }
}

在这个例子中，我们创建了一个函数mapper，它接受一个Tuple2<String, Integer>作为输入，并将其转换为字符串形式的键值对。然后，我们使用saveAsTextFile方法将这些键值对保存到文本文件中。

注意：在实际的应用中，你可能需要根据自己的需求修改这个代码。例如，你可能需要添加更多的逻辑（如错误处理），或者使用更复杂的数据结构（如RDD）。此外，你还需要考虑如何在不同的Spark版本之间迁移代码。

报告相同问题？

关注问题

Java+AI 开发：从技术栈到落地的全攻略
2025-09-03 22:45

雾是山倒过来的海的博客现在的 Java+AI 开发，早已不是 “用 Java 写业务 + 调个 AI 接口” 的简单组合 —— 核心是 **“Java 的工程化能力支撑 AI 落地，AI 的智能化能力升级 Java 应用”**。比如电商推荐系统，Java 负责高并发接口、数据...
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
2023-09-29 00:00

秒懂AI+的博客函数式编程#Python中的函数式编程return x*x#2-lambda 匿名函数 java: x=>x*x 表达式 Scala:x->x*xreturn x+y# 语法 lambda表达式语言：【lambda 变量：表达式】# 列表表达式 [表达式 for 变量 in 可迭代的序列中 if...
Java程序员AI+自媒体转型全指南
2025-09-25 22:29

一波清泉的博客 Python 学习则以“够用为度”，优先掌握数据处理库（Pandas、NumPy）的基础操作与模型调用语法，核心目标是实现 Java 与 Python 的混合编程能力——通过 Jython 框架或 RESTful API 调用方式，让 Java 应用能够无缝...
Java 大视界 --Java 大数据在智能医疗远程手术机器人控制与数据传输中的技术支持
2025-11-08 19:00

青云交的博客本文探讨了Java大数据技术在智能医疗远程手术机器人控制与数据传输中的关键作用。首先分析了当前远程手术面临的三大挑战：高带宽需求下4K视频和生命体征数据的实时传输难题、网络延迟导致的控制精度下降（100ms延迟...
Spark水污染监测和预警系统|0104（领完整源码）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C++、python、数据可视化、全套文案
2025-12-29 15:11

VX_rjsj985的博客系统采用了先进的云计算平台进行数据处理，并利用物联网技术实现对各地水质传感器的远程控制与数据采集，确保了数据的及时更新和高可靠性。此外，系统还支持管理员和普通用户两种角色的不同权限管理，提升了系统的...
运行支持kubernetes原生调度的Spark程序
2018-11-02 19:50

腾讯AI架构师的博客 Spark 概念说明 Apache Spark 是一个围绕速度、易用性和复杂分析构建的大数据处理框架。...Application：Spark Application 的概念和 Hadoop 中的 MapReduce 类似，指的是用户编写的 Spark 应用程序...
Apache Spark 4.0：将大数据分析提升到新的水平
2025-07-06 21:09

涤生大数据的博客 Apache Spark 4.0 带来了 PySpark ...在 Databricks、Apple 和 NVIDIA 等机构的 400 多位开发者的贡献下，Spark 4.0 解决了数千个 JIRA 问题，并引入了诸多变革性功能：PySpark 原生画图、Python 数据源 API、多态用
Apache Spark目前发展到了什么程度？
2025-07-05 08:17

王知无(import_bigdata)的博客作为协议层的核心改进，Spark Connect 实现了客户端与驱动程序的解耦，支持 Go、Python 等语言的轻量化客户端开发，用户可通过文本编辑器直接调试远程集群，极大降低了开发门槛；社区也在积极的拥抱新时代数据领域的...
Spark集群搭建与PySpark开发环境配置
2025-12-26 16:38

Emmamkq~~的博客详细记录了Spark Standalone集群的启动流程，通过jps验证进程并访问Web界面监控任务。演示了Standalone和Yarn两种模式提交pi.py计算任务，并介绍Jupyter与PyCharm远程开发环境的配置方法，实现高效的大数据处理开发...
Java开发：从入门到精通
2025-07-17 16:12

幻云2010的博客本书将带您从“万物皆对象”的初心出发，掌握Java核心，驰骋于Spring的广阔天地，构建微服务的坛城，乃至驾驭AI的智慧之光。莫将此书仅作技术图谱，它更是一张心法地图。愿您于此，不仅习得一身精湛“术”法，更能悟...
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

用spark提供的java API写的程序怎么远程提交到集群上运行。

1条回答默认最新

码龄粉丝数原力等级 --

用spark提供的java API写的程序怎么远程提交到集群上运行。

1条回答 默认 最新

1条回答默认最新