java使用spark本地模式为什么性能低下

java使用spark 本地模式，性能很差甚至不如纯java代码是什么原因

    SparkConf conf = new SparkConf()
            .setAppName("MyApp")
            .set("spark.executor.memory", "8g")
            .set("spark.driver.memory", "8g")
            .setMaster("local[*]");

    JavaSparkContext sc = new JavaSparkContext(conf);

    List<Integer> data=new ArrayList<>();
    for (int i = 0; i < 20000000; i++) {
        data.add(i);
    }
    System.out.println("开始");
    long startTime = System.currentTimeMillis();
    /*
    for (int i = 0; i < 20000000; i++) {
       int x=i*i;
    }
    */
    JavaRDD<Integer> rdd = sc.parallelize(data).map(x -> x * x);
    System.out.println(rdd.count());
    System.out.println("结束");
    long endTime = System.currentTimeMillis(); // 获取方法结束时间
    long executionTimeMillis = endTime - startTime; // 计算方法执行时间（毫秒）
    double executionTimeSeconds = executionTimeMillis / 1000.0; // 转换为秒
    System.out.println(executionTimeSeconds);

问题描述：最开始以为是spark的内存给的太少，通过set修改了内存大小，但是毫无影响，又做了对比测试，可以看到我代码中被注释掉的部分实现了同样的功能，都是求2次方。纯java输出的用时是0.02，而spark却用了20秒，而且通过任务管理器也发现spark代码部分在运行时CPU和内存占用都不高

版本说明：使用的是spark3.4.0的

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.4.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>3.4.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-mllib_2.12</artifactId>
        <version>3.4.0</version>
    </dependency>
</dependencies>

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
卑以自牧w 2023-08-31 14:42
关注
那是因为你是小数据量的计算，spark使用的是内存和分布式计算，java的计算是基于单机的，在处理大数据量的计算spark的优势才能凸显
spark哦那个了很多高级的数据结构，这些结构在处理大规模数据上做了优化，并且采用的了高效的数据缓存和数据分区技术，在大规模数据上能进行高效的内存计算和并行计算，总而言之就是spark是处理大规模数据的

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Java在大数据处理中的应用：从MapReduce到Spark
2025-02-11 14:50

向哆哆的博客大数据时代的到来让数据的存储、处理和分析变...在大数据处理过程中，Java作为一种高效、平台无关的编程语言，扮演了至关重要的角色。本文将带你深入了解Java在大数据处理中的应用，重点探讨从MapReduce到Spark的演进。
【Java并发编程】从底层原理到实战
2025-12-27 22:07

JasonAI爱街舞代码的博客本文摘要： Java并发编程是突破单线程局限性的关键技术，能有效提升程序性能和资源利用率，但伴随线程安全、死锁等问题。文章系统讲解了Java并发核心概念（进程/线程/协程、并发/并行等）及其适用场景，详细分析了...
万字详解 Spark开发调优（建议收藏）
2021-09-04 20:22

zhisheng_blog的博客 1一、前言在大数据计算领域，Spark 已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark 的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各...
Ch10-Spark系统及其编程技术简介1
2022-08-03 17:01

2. 为什么会有Spark？ Spark的诞生主要是为了克服Hadoop MapReduce在处理大数据时的一些局限性，如低延迟处理、内存效率和复杂计算表达能力的不足。MapReduce不适合迭代计算和实时流处理，且磁盘I/O效率低下。随着...
Java语言入门概述
2022-07-27 17:22

楠柯如梦的博客主要的工作负责实现界面的美化的,技术内容(psAi....)WEB对应的前端开发工程师,主要的工作是负责页面功能实现,技术html(H5)+CSS3+JS,包括前端的一些框架node.jsvue.js......+数据库技术服务器端开发比较流行的java,...
spark编程基础(算子详解)
2020-12-27 09:06

阿宾571的博客包括spark的简介、安装启动等基本介绍对RDD及相关概念的解析对Transformation算子和action算子的详细介绍
3、Java编程入门：从OOP基础到Java特性全解析
2025-08-19 04:03

BugCatcher93的博客本文全面解析了Java编程的入门知识，从面向对象分析与设计（OOAD）及统一建模语言（UML）的基础概念入手，详细介绍了类与对象、多重性关系、继承、聚合与组合等面向对象编程的核心内容。同时，文章深入讲解了Java...
Scala与Spark：原理、实践与技术全景详解
2025-05-19 10:05

北漂老男人的博客本文系统梳理了 Scala 语言的基础与进阶特性，深入剖析了 Spark 的原理与架构，并结合实际案例与生态选型，为大数据开发者提供了理论与实践的全景参考。Scala 的表达力和 Spark 的高效分布式能力相结合，极大推动了...
物化列：字节为解决 Spark 嵌套列查询性能低下的优化
2020-12-13 21:18

过往记忆的博客本文来自11月举办的Data + AI Summit 2020（原 Spark+AI Summit），主题为《Materialized Column- An Efficient Wa...
Spark的性能调优杂谈
2021-04-02 16:49

大数据从业者FelixZh的博客下面这些关于Spark的性能调优项，有的是来自官方的，有的是来自别的的工程师，有的则是我自己总结的。基本概念和原则 <1> 每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor，task们会...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月31日

java使用spark本地模式为什么性能低下

java使用spark 本地模式，性能很差甚至不如纯java代码是什么原因

版本说明：使用的是spark3.4.0的

2条回答 默认 最新

问题事件

2条回答默认最新