Spark中使用多个正则循环匹配数据，速度慢的问题

uaParserConfigs 是正则的List，里边是格map对应的{"regex":"************"}

 JavaRDD<String> inputWords = lines.map(new Function<String, String>() {

           @Override
           public String call(String s) throws Exception {
               for(int size = 0;size<uaParserConfigs.size();size++){
                    Matcher matcher = Pattern.compile(uaParserConfigs.get(size).get("regex")).matcher(s);
                    if(matcher.find()){
                        return  new String(s+"1");
                    }
                }
               return new String(s + "0");
           }
       });

速度特别慢，每分钟才处理几百条数据，怎么提高性能或者有没有其他的解决方案。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-03-21 16:38
关注
https://www.cnblogs.com/guo-xiang/p/7247371.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客 2.15.12 分析过最难的指标 2.15.13 数仓中使用的哪种文件存储格式 2.15.14 数仓当中数据多久删除一次 2.15.15 Mysql业务库中某张表发生变化，数仓中表需要做什么改变 2.15.16 50多张表关联，如何进行性能调优 2.15....
spark json数据写入mysql数据库问题 json mysql spark
2022-01-25 09:53

回答 1 已采纳问题已解决：参考这个=====>https://blog.csdn.net/weixin_43753599/article/details/122697542?spm=1001.2014.300
一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
Spark原理-字节跳动大数据青训营
2022-08-02 19:08

北境旅客的博客本文为字节跳动青训营Spark原理部分内容，如有纰漏，请指正
安装spark中的问题 spark
2022-05-23 11:39

回答 1 已采纳修改用户权限，你的权限不够
关于#spark#的问题：sparksql数据类型储存对象 spark
2022-11-29 13:16

回答 1 已采纳 1、目前pyspark.sql.types支持的数据类型：NullType、StringType、BinaryType、BooleanType、DateType、TimestampType、Decim
spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
大数据Spark MLlib推荐算法
2021-10-24 18:21

赵广陆的博客目录1 相似度算法1.1 欧几里德距离算法1.2 基于夹角余弦相似度算法2 最近邻域3 交替最小二乘法3.1 最小二乘法3.2 交替最小二乘法3.3 ALS算法流程3.4 ALS算法实战3.4.1 数据说明3.4.2 数据建模3.4.3 实战3.4.4 优化...
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
大数据开发面试知识点总结
2021-02-09 11:22

GoAI的博客本文详细介绍大数据hadoop生态圈各部分知识，包括不限于hdfs、yarn、mapreduce、hive、sqoop、kafka、flume、spark、flink等技术，总结内容适合大数据开发者学习，希望能够和大家多多交流。
如何利用spark向HDFS的目录中追加数据?
2019-07-21 19:59

沙漏遗失了年华的博客需要不断的向同一个目录写入数据（比如，每个小时将kafka中的数据落到HDFS的同一个目录），当然这种需求有很多解决方案可以使用，今天我们所探讨的就是如何通过修改spark 数据输出组件来实现这个功能， 1.1...
没有解决我的问题, 去提问

悬赏问题

¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿
¥15 kafka 分区副本增加会导致消息丢失或者不可用吗？
¥15 微信公众号自制会员卡没有收款渠道啊
¥100 Jenkins自动化部署—悬赏100元
¥15 关于#python#的问题：求帮写python代码
¥20 MATLAB画图图形出现上下震荡的线条
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘

Spark中使用多个正则循环匹配数据，速度慢的问题

2条回答 默认 最新

悬赏问题

2条回答默认最新