Spark提交作业为什么一定要conf.setJars()，它的具体作用到底是什么?

代码如下：

package wordcount

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.rdd.RDD

object WordCount extends App {
  val conf = new SparkConf()
    //就是这里，为什必须要有它，它的具体作用到底是啥？
  .set("spark.jars", "src/main/resources/sparkcore.jar,")  
  .set("spark.app.name", "WordCount")
  .set("spark.master", "spark://master:7077")
  .set("spark.driver.host", "win")
  .set("spark.executor.memory", "512M")
  .set("spark.eventLog.enabled", "true")
  .set("spark.eventLog.dir", "hdfs://master:9000/spark/history")

  val sc=new SparkContext(conf) 
  val lines:RDD[String]=sc.textFile("hdfs://master:9000/user/dsf/wordcount_input")
  val words:RDD[String]=lines.flatMap(_.split(" "))
  val wordAndOne:RDD[(String,Int)]=words.map((_,1))
  val reduce:RDD[(String,Int)]=wordAndOne.reduceByKey(_+_)
  val sorted:RDD[(String,Int)]=reduce.sortBy(_._2, ascending=false,numPartitions=1)
  sorted.saveAsTextFile("hdfs://master:9000/user/dsf/wordcount_output")

  println("\ntextFile:    "+lines.collect().toBuffer)
  println("flatMap:     "+words.collect().toBuffer)
  println("map:         "+wordAndOne.collect().toBuffer)
  println("reduceByKey: "+reduce.collect().toBuffer)
  println("sortBy:      "+sorted.collect().toBuffer)

  sc.stop()
} 

/**
在Linux终端运行此应用的命令行:
spark-submit \
--master spark://master:7077 \
--class wordcount.WordCount \
sparkcore.jar
*/

如果没有.set("spark.jars", "src/main/resources/sparkcore.jar,")这段代码，它会报这个异常：

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 6, 192.168.1.15, executor 0): java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD

翻译过来是：
spark.jars: 以逗号分隔的本地jar列表，包含在驱动程序和执行程序类路径中。

按照官网的意思，是Driver和Excutor都应该有程序的jar包，可我不明白它的具体原理，哪位好心人给讲解一下，谢谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
huwao 2018-10-15 03:25
关注
设置主函数的位置，给spark-core的jar一个主函数位置。驱动器和执行器中的确有spark-core的核心jar包，但是你手动设置了很多本地设置，可能需要设置设置本地执行主函数的jar包
试着如下设置：
我平时没有像你那麽设置，我这样的配置也可以，不过需要在打包时设置一下主函数。

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

limits.conf和20-nproc.conf的去区别是什么呢？ linux
2021-12-25 15:28

回答 2 已采纳系统(其实是pam_limits这个模块)会先读入/etc/security/limits.conf，然后读入/etc/security/limits.d/下面的文件，所以是 /etc/securit
为什么nacos集群配置中cluster.conf配置了同个ip的三个端口？ java 负载均衡
2021-07-21 17:08

回答 3 已采纳不要问，问就是穷，正常线上不会这么配
请问java.lang.ExceptionInInitializerError错误如何处理呢？ intellij-idea java maven
2022-06-15 16:52

回答 1 已采纳 jdk版本是多少？降到jdk8就好了
spark java lambda_java.lang.ClassCastException在远程服务器上的Spark作业中使用Lambda表达式...
2021-03-12 10:35

Ediartos的博客我正在尝试使用sparkjava.com框架为我的Apache Spark作业构建Web API。我的代码是：@Overridepublic void init() {get("/hello",(req, res) -> {String sourcePath = "hdfs://spark:54310/input/*";SparkConf ...
为什么配置了.tmux.conf还是无法在本地终端使用鼠标操作？ linux 后端
2023-01-08 23:11

回答 1 已采纳在 tmux 中使用鼠标的功能需要在 tmux 配置文件中开启。可以在 .tmux.conf 文件中添加以下内容来启用鼠标功能： set -g mouse on 在添加上述内容之后，需要重新加载配
为什么配置dns的时候编辑/etc/named.conf时里面是空的 linux 服务器
2023-04-17 14:43

回答 2 已采纳如果你本机直接编辑 /etc/named.conf ，如果里面什么都没有，那么十有八九是你安装bind失败，这个文件压根就没生成，建议你参看一下站内文章：https://blog.csdn.net/s
运行报错，大佬们帮忙看看什么原因java.util.concurrent.ExecutionException java
2019-07-21 20:15

回答 3 已采纳 Caused by: java.lang.IllegalArgumentException: Invalid #write/* in servlet mapping 检查你的servlet mapp
java提交spark代码_使用java代码提交Spark的hive sql任务，run as java application
2021-03-11 14:54

范沙子的博客我的环境：hadoop 2.7.1、spark 1.6.0、hive 2.0、java 1.7目标：...问题一：首先要提一下，按照java -jar执行，会报java.lang.OutOfMemoryError: PermGen space错误，所以需要使用以下参数启动java-Xms1024m-Xmx...
Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
修改名称，将/etc/httpd/conf.d/ssl.conf重命名为ssl.conf.bak； linux
2022-05-11 16:16

回答 1 已采纳 mv /etc/httpd/conf.d/ssl.conf /etc/httpd/conf.d/ssl.conf.bak
linux shell中的if [ ! -f /etc/dnsmasq.conf ]是什么意思? centos linux ubuntu unix 腾讯云
2020-08-20 15:43

回答 2 已采纳 -a file exists. -b file exists and is a block special file. -c file exists and is a character spec
idea远程调试setJars设置及遇到的问题java.lang.ClassNotFoundException: XXX$$anonfun$2
2019-11-08 10:12

C_time的博客 //Exception in thread "main" java.lang.IllegalArgumentException: Pathname /D:/Program Files/feiq/Recv Files/sparkcoursesinfo/spark/data/advert/Advert.log from // hdfs://qf/D:/Program Files/feiq/...
flume开启报错java.lang.SecurityException: sealing violation: package org.apache.flume.conf is sealed java
2019-04-27 13:35

回答 1 已采纳还是jar包重复问题，关于seal violation问题网上有个解释的很详细，下面是链接 http://blog.sina.com.cn/s/blog_4c890a7f01015iaa.html
spark程序开发中出现 java.lang.ClassNotFoundException的处理
2019-12-26 20:04

zg_zeus的博客开发spark程序中出现异常总结出如下： ...Caused by: java.lang.ClassNotFoundException: xxx.WordCount$$anonfun$2 at java.net.URLClassLoader.findClass(URLClassLoader.java:382) at java.lan...
用IDEA开发spark应用，发生java.lang.ClassNotFoundException的解决
2018-05-06 03:03

笔和墨的博客在完成集群配置之后，我写了下面的demo进行测试如果把“spark://master:7077”变为local[2]就能正常运行，但是修改为spark集群就报错demo案例如下：package com.keduox import org.apache.spark.{SparkConf, ...
java 远程 yarn jar_在 idea 中以 yarn-client 远程提交 Spark 作业
2021-03-21 10:50

发际线退我不退的博客 core_2.11 ${spark.version} ${provided.scope} org.apache.spark spark-streaming_2.11 ${spark.version} ${provided.scope} org.apache.spark spark-sql_2.11 ${spark.version} ${provided.scope} org.apache....
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

Spark提交作业为什么一定要conf.setJars()，它的具体作用到底是什么?

1条回答 默认 最新

悬赏问题

1条回答默认最新