如何过滤 spark 链接 mongodb 时加载数据量

目前使用的是mongodb官方提供的一个链接spark的jar包，代码如下
SparkConf conf = new SparkConf().set(...)//设置初始化属性
JavaSparkContext jsc = new JavaSparkContext(conf);
//下面这步加载数据
Dataset explicitDF = MongoSpark.load(jsc).toDF();
由于是这样直接加载的，根本没地方在加载之前写过滤条件来控制加载的数据量的，所以导致直接加载了整表的数据，十分缓慢，各位有什么方法或者建议提供参考下么，谢谢啦

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_1763173213 2018-03-12 14:58
关注
val spark = SparkSession.builder

.appName(this.getClass.getName().stripSuffix("$"))

.getOrCreate()

val inputUri="mongodb://test:pwd123456@192.168.0.1:27017/test.articles"

val df = spark.read.format("com.mongodb.spark.sql").options(

Map("spark.mongodb.input.uri" -> inputUri,

"spark.mongodb.input.partitioner" -> "MongoPaginateBySizePartitioner",

"spark.mongodb.input.partitionerOptions.partitionKey" -> "_id",

"spark.mongodb.input.partitionerOptions.partitionSizeMB"-> "32"))

.load()

val currentTimestamp = System.currentTimeMillis()

val originDf = df.filter(df("updateTime") < currentTimestamp && df("updateTime") >= currentTimestamp - 1440 * 60 * 1000)

.select("_id", "content", "imgTotalCount").toDF("id", "content", "imgnum")

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Linux使用java -jar 启动jar包时MongoDB链接超时 java linux mongodb
2021-09-29 10:58

回答 1 已采纳看linux服务器报错：初始化数据源错误，后面接上了url。可以试一下在linux服务器下连接数据库行不行，如果连不上，就跟项目本身无关了。因为在本地和windows启动都没有问题，所以猜测问题不在项
mongodb 嵌套查询如何过滤掉不符合条件的数据 java mongodb nosql
2023-01-07 08:59

回答 5 已采纳方法一：使用$unwind将数组打散,获取结果集后用$match筛选符合条件的数据，最后使用$group进行聚合获取最终结果集。方法二：使用$match过滤符合条件的根文档结果集，然后使用$proje
SparkSQL整合mongodb出错 mongodb scala spark
2021-09-08 09:26

回答 2 已采纳看看下面这篇文章能否解决你的问题,如果有用请采纳哦~Caused by后面一般写着报错的原因 Caused by: java.lang.NoSuchMethodError: org.ap
Spark Redis MongoDB大数据平台数据服务框架scala源码推荐
2020-02-10 16:09

yiyidsj的博客实现了Kafka实时数据过滤、清洗、转换、消费，实现了Spark SQL对Redis、MongoDB等非关系型数据库的数据的读写；集成了规则引擎，可基于规则引擎实现客户标签、画像等相关功能。 DataService-Framework 项目介绍 ...
Golang和MongoDB：带过滤器的DeleteMany mongodb
2019-06-19 05:43

回答 2 已采纳 Contact.ID is of type xid.ID, which is a byte array: type ID [rawLen]byte So the insert code yo
大数据上的MongoDB聚合超时异常 mongodb php
2016-03-14 07:23

回答 1 已采纳 As I am using Doctrine MongoDB ODM module in my application I fixed my issue in the following way.
如何用Python快速读取MongoDB数据为DataFrame格式 mongodb python
2021-08-23 16:00

回答 1 已采纳你直接查询了MongoDB表的所有数据肯定慢。你可以将MongoDB的数据先查询保存为10-50万记录一个csv文件，再用pandas去加载这些csv，加载过程就会很快。
基于Spark+Scala+MongoDB的大数据实战，商品推荐系统设计与实现.zip
2023-07-31 15:29

ETL模块：加载原始数据，清洗，加工，为模型训练模块和推荐模块准备所需的各种数据。模型训练模块:负责产生模型，以及寻找最佳的模型。推荐模块：包含离线推荐和实时推荐，离线推荐负责把推荐结果存储到存储...
循环删除MongoDB重复数据 mongodb 数据库
2017-04-21 07:37

回答 2 已采纳之前看见的文章里也遇见你这个问题，可以参考一下 http://forum.foxera.com/mongodb/topic/967/mongodb%E5%A6%82%E4%BD%95%E5%B0%8
mongoDB 链接不上任务管理器也连接不上为什么啊 mongodb 有问必答
2021-11-12 09:37

回答 1 已采纳你这好像是配置语句。打开程序需要打开exe吧。https://www.cnblogs.com/harrychinese/p/mongodb.html
mongodb中出现连接错误 linux mongodb 大数据有问必答
2022-01-07 09:13

回答 3 已采纳服务关了。然后你再怎么输命令肯定全报错啊。它不是在报：尝试重连失败？
MongoDB + Spark: 完整的大数据解决方案
2020-12-07 20:55

Pysamlam的博客 MongoDB是一个基于分布式文件存储的数据库，最近两年声音变小了，但是在很多系统中仍然被广泛使用。如果你的系统中用到了，不妨看看这篇文章。Spark介绍按照官方的定义，Spark 是一...
mongodb查询语句问题（刚接触mongodb） mongodb
2022-11-10 09:10

回答 1 已采纳你find查询条件写多了一层花括号，按照下述语句查询一下 db.getCollection("carordershands").find({ "created": { '$lt
大数据——MongoDB在大数据场景下的应用
2021-03-15 08:45

蜂蜜柚子加苦茶的博客 MongoDB在大数据场景下的应用MongoDB概述 MongoDB概述 MongoDB是一个开源的NoSQL数据库使用C++编写的具有动态模式的面向文档的数据库动态模式支持流畅的多态性将数据存储在类似JSON的文档中（BSON）使用文档...
基于机器学习+Spark2.0+MongoDB实现的协同过滤推荐系统.zip
2023-07-31 15:31

ETL模块：加载原始数据，清洗，加工，为模型训练模块和推荐模块准备所需的各种数据。模型训练模块:负责产生模型，以及寻找最佳的模型。推荐模块：包含离线推荐和实时推荐，离线推荐负责把推荐结果存储到存储...
没有解决我的问题, 去提问

悬赏问题

¥15 python的qt5界面
¥15 无线电能传输系统MATLAB仿真问题
¥50 如何用脚本实现输入法的热键设置
¥20 我想使用一些网络协议或者部分协议也行，主要想实现类似于traceroute的一定步长内的路由拓扑功能
¥30 深度学习，前后端连接
¥15 孟德尔随机化结果不一致
¥15 apm2.8飞控罗盘bad health，加速度计校准失败
¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
¥15 谁有desed数据集呀
¥20 手写数字识别运行c仿真时，程序报错错误代码sim211-100

如何过滤 spark 链接 mongodb 时 加载数据量

2条回答

悬赏问题

如何过滤 spark 链接 mongodb 时加载数据量