csdn4652 2017-11-27 09:31 采纳率: 0%
浏览 2906
已结题

Spark 连接 mongodb 用python

按照官网教程
1
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("myApp") \
.config("spark.mongodb.input.uri", "mongodb://127.0.0.1/Spark-Test.Numbers") \
.config("spark.mongodb.output.uri", "mongodb://127.0.0.1/Spark-Test.Numbers") \
.getOrCreate()
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()

结果报错Caused by: java.lang.ClassNotFoundException: com.mongodb.spark.sql.DefaultSource.DefaultSource

2
我看需要用--packages这个命令导入包
cmd>> pyspark --package org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
报错:Exception in thread "main" java.lang.IllegalArgumentException: pyspark does not

3
完全按照官方来
cmd>>pyspark --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPreferred"
--conf "spark.mongodb.output.uri=mongodb://127.0.0.1/test.myCollection"
--packages org.mongodb.spark:mongo-spark-connector_2.10:1.1.0
报错:'D:\SparkNew\spark\bin\pyspark2.cmd" --conf "spark.mongodb.input.uri' 不是内部或外部命令,
也不是可运行的程序或批处理文件。

不太明白我用的pyspark,怎么报错是pyspark2.cmd

那怎么才能跟mongodb连接呢,就是找不到DefaultSource.DefaultSource的事啊

  • 写回答

4条回答

  • kopp 2017-11-27 13:28
    关注

    pip install -U pyspark

    评论

报告相同问题?

悬赏问题

  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料