导入数据到mongo中关于spark的报错求

在进行数据上传到mangodb的时候出现的报错求解决

源代码

 def main(args: Array[String]): Unit = {
//定义用到的配置参数
    val config = Map(
      "spark.cores" -> "local[*]",
      "mongo.uri" -> "mongodb://localhost:27017/recommender",
      "mongo.db" -> "recommender",
      "es.httpHosts" -> "localhost:9200",
      "es.transportHosts" -> "localhost:9300",
      "es.index" -> "recommender",
      "es.cluster.name" -> "elasticsearch"
    )


    //创建一个sparkconf
    val sparkConf =new SparkConf().setMaster(config("spark.cores")).setAppName("DataLoader")
    //创建一个sparkSession
    val spark=SparkSession.builder().config(sparkConf).getOrCreate()

    import spark.implicits._

    //加载数据
    val userRDD=spark.sparkContext.textFile(USER_DATA_PATH)

    val userDF=userRDD.map(
      item=>{
        val attr=item.split("\\n")
        User(attr(0),attr(1).trim)
      }
    ).toDF()

    val hobbyRDD=spark.sparkContext.textFile(HOBBY_DATA_PATH)
    val hobbyDF=hobbyRDD.map(
      item=>{
        val attr=item.split("\\n")
        Hobby(attr(0).trim)
      }
    ).toDF()
    val cityRDD=spark.sparkContext.textFile(CITYNAME_DATA_PATH)
    val cityDF=cityRDD.map(
      item=>{
        val attr=item.split("\\n")
        Cityname(attr(0).trim)
      }
    ).toDF()

    implicit val mongoConfig=MongoConfig(config("mongo.uri"),config("mongo.db"))

    //将数据保存到MongoDB
    storeDataInMongDB(userDF,hobbyDF,cityDF)
    //数据预处理


    //保存数据到ES
    storeDataInES()

    spark.stop()
  }

  def storeDataInMongDB(userDF:DataFrame,hobbyDF:DataFrame,cityDF:DataFrame)(implicit mongoConfig: MongoConfig):Unit={
//新建一个mongdb的连接
    val mongoClient=MongoClient(MongoClientURI(mongoConfig.uri))

    //如果mongodb中已经有相应的数据库，先删除
    mongoClient(mongoConfig.db)(MONGODB_USER_COLLECTION).dropCollection()
    mongoClient(mongoConfig.db)(MONGODB_HOBBY_COLLECTION).dropCollection()
    mongoClient(mongoConfig.db)(MONGODB_CITYNAME_COLLECTION).dropCollection()

    //将DF数据写入对应的mongo表中
    userDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",MONGODB_USER_COLLECTION)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
    hobbyDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",MONGODB_HOBBY_COLLECTION)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
    cityDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",MONGODB_CITYNAME_COLLECTION)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
    //对数据表建索引
    mongoClient(mongoConfig.db)(MONGODB_USER_COLLECTION).createIndex(MongoDBObject("mid" -> 1))
      mongoClient(mongoConfig.db)(MONGODB_HOBBY_COLLECTION).createIndex(MongoDBObject("uid" -> 1))
      mongoClient(mongoConfig.db)(MONGODB_HOBBY_COLLECTION).createIndex(MongoDBObject("mid" -> 1))
      mongoClient(mongoConfig.db)(MONGODB_CITYNAME_COLLECTION).createIndex(MongoDBObject("uid" -> 1))
      mongoClient(mongoConfig.db)(MONGODB_CITYNAME_COLLECTION).createIndex(MongoDBObject("mid" -> 1))
 //关闭 MongoDB 的连接
      mongoClient.close()
  }

  def storeDataInES():Unit={

  }
}

遇到的报错

INFO ---[ main] org.apache.spark.scheduler.DAGScheduler (line: 54) : Job 0 failed: foreachPartition at MongoSpark.scala:130, took 0.194757 s
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost, executor driver): java.lang.ArrayIndexOutOfBoundsException: 1
at com.atguigu.recommender.DataLoader$$anonfun$1.apply(DataLoader.scala:74)
at com.atguigu.recommender.DataLoader$$anonfun$1.apply(DataLoader.scala:72)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$class.isEmpty(Iterator.scala:330)
at scala.collection.AbstractIterator.isEmpty(Iterator.scala:1336)
at scala.collection.TraversableOnce$class.nonEmpty(TraversableOnce.scala:111)
at scala.collection.AbstractIterator.nonEmpty(Iterator.scala:1336)
at com.mongodb.spark.MongoSpark$$anonfun$save$1.apply(MongoSpark.scala:130)
at com.mongodb.spark.MongoSpark$$anonfun$save$1.apply(MongoSpark.scala:130)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

Driver stacktrace:
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1435)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1423)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1422)
at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1422)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:802)
at scala.Option.foreach(Option.scala:257)
at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:802)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1650)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1605)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1594)
at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:628)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1925)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1938)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1951)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:1965)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1.apply(RDD.scala:926)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1.apply(RDD.scala:924)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:362)
at org.apache.spark.rdd.RDD.foreachPartition(RDD.scala:924)
at com.mongodb.spark.MongoSpark$.save(MongoSpark.scala:130)
at com.mongodb.spark.MongoSpark$.save(MongoSpark.scala:178)
at com.mongodb.spark.sql.DefaultSource.createRelation(DefaultSource.scala:90)
at org.apache.spark.sql.execution.datasources.DataSource.write(DataSource.scala:518)
at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:215)
at com.atguigu.recommender.DataLoader$.storeDataInMongDB(DataLoader.scala:121)
at com.atguigu.recommender.DataLoader$.main(DataLoader.scala:96)
at com.atguigu.recommender.DataLoader.main(DataLoader.scala)
Caused by: java.lang.ArrayIndexOutOfBoundsException: 1
at com.atguigu.recommender.DataLoader$$anonfun$1.apply(DataLoader.scala:74)
at com.atguigu.recommender.DataLoader$$anonfun$1.apply(DataLoader.scala:72)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:409)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:377)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$class.isEmpty(Iterator.scala:330)
at scala.collection.AbstractIterator.isEmpty(Iterator.scala:1336)
at scala.collection.TraversableOnce$class.nonEmpty(TraversableOnce.scala:111)
at scala.collection.AbstractIterator.nonEmpty(Iterator.scala:1336)
at com.mongodb.spark.MongoSpark$$anonfun$save$1.apply(MongoSpark.scala:130)
at com.mongodb.spark.MongoSpark$$anonfun$save$1.apply(MongoSpark.scala:130)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
at org.apache.spark.rdd.RDD$$anonfun$foreachPartition$1$$anonfun$apply$29.apply(RDD.scala:926)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1951)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:99)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:322)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 15:50
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Spark读写Mongodb，报错MongoDBversion小于 3.2detected

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python插入数据到mongodb中的$setOnInsert mongodb python
2021-01-08 16:54

回答 2 已采纳参考下：https://blog.csdn.net/yaomingyang/article/details/78791453 应该会返回一个匹配数量和更新数量两个字段
python for循环数据存不了mongo库 mongodb python
2022-05-20 09:48

回答 2 已采纳程序运行结果发下？
linux centos中启动mongodb报错 centos linux mongodb
2020-12-31 15:37

回答 1 已采纳这个是配置文件问题，是 bind_ip 不是 bin_ip
waterdrop大数据同步数据配置以及mongodb到导入数据
2020-10-21 10:53

weixing_2006的博客 1、waterdrop由mongodb同步到clickhouse集群配置 spark { spark.app.name = “Waterdrop0923” spark.executor.instances = 40 spark.executor.cores = 2 spark.executor.memory = “3g” } input{ mongodb { read...
django如何在model导入已经存在的mongo数据库? django mongodb
2020-01-13 14:49

回答 1 已采纳 django的model主要是封装了关系型数据库，用MONGO的话得手动来写了。
云服务器后端获取不到mongo数据库内容 mongodb 后端
2021-09-05 02:34

回答 1 已采纳你可以尝试在mongo 命令行下执行查询看是服务否有问题，若没问题则应为程序问题
mongo 数组分页并返回数组中指定的字段 mongodb 有问必答
2021-05-24 13:30

回答 1 已采纳找到合适的方式了，自己回答一下吧，用到的操作： aggregate：聚合，支持很多操作，目前一知半解 $project ：投影，我理解是对查询结果的数据结构进行重构 $slice：对数组结构进行
大数据时代，数据实时同步解决方案的思考—最全的数据同步总结
2020-04-19 18:13

冰河的博客比如从oracle数据库中同步一张表的数据到Mysql中，通常的做法就是分页查询源端的表，然后通过 jdbc的batch 方式插入到目标表，这个地方需要注意的是，分页查询时，一定要按照主键id来排序分页，避免重复插入。...
mongodb数据导出太慢，求快速导出数据的办法 json mongodb 数据库
2017-09-17 15:20

回答 2 已采纳可以采用分布式的方法
mongoDB使用MongoRepository，启动类不能启动 mongodb 有问必答
2022-01-05 11:17

回答 1 已采纳 mongoTemplate没有被发现，看看是不是同样的问题 spring boot 配置 mongodb启动报错 Field xxxDao in 'xxx.xxx.xxx
MongoTemplate.find()求大神指点 java spring
2019-08-13 12:12

回答 4 已采纳操作IntegrationMessage这张表
2021年大数据面试宝典完整版（含答案解析）
2021-06-09 02:05

行走的数据智能的博客朋友面试数据专家提供的数据驱动，spark及flink方面面试题 v1.3 2020-08-22 朋友面试数据开发提供的关于hive及数仓方面的题目 v1.4 2020-09-06 老徐提供面试题(数仓方向)及朋友提供数据开...
pycharm2020的插件搜不到mongo plugin，请问要怎么安装？ mongodb python 有问必答
2021-04-02 22:40

回答 2 已采纳 1.选择pycharm——》Setting——》Project 【自己项目名称】——》Python Intercepter 2.在上面界面右侧双击，进入Available Packages界面
CM+CDH 构建企业大数据平台
2023-07-02 10:06

Wang Dingding的博客 CDH创建了一个功能先进的系统，可帮助您执行端到端的大数据工作流程。
Hadoop生态圈 大数据文档
2021-12-01 09:45

BigData_XiaoBai的博客文档基于介绍基于Hadoop的大数据生态圈。介绍下图每一个组件的使用场景及使用方法，同时还对每一个组件有更深入的介绍。 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金1元 10月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月26日

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图点聚合中Marker的位置无法实时更新
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

导入数据到mongo中关于spark的报错求

在进行数据上传到mangodb的时候出现的报错求解决

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新