如何用spark统计某个关键词?

 public final class JavaWordCount {

    private static final Pattern SPACE = Pattern.compile("(\\s|\\p{Punct})+");

    public static void main(String[] args) throws Exception {
        //设置hadoop路径
        System.setProperty("hadoop.home.dir", "F:\\TDDownload\\spark-2.1.0-bin-hadoop2.7\\spark-2.1.0-bin-hadoop2.7");
        //设置目标文件
        args = new String[]{"D:/logs/"};
        //创建spark
        SparkSession spark = SparkSession.builder().appName("JavaWordCount").getOrCreate();
        //
        JavaRDD<String> lines = spark.read().textFile(args[0]).javaRDD();

        JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public Iterator<String> call(String s) {
                return Arrays.asList(SPACE.split(s)).iterator();
            }
        });
        JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) {
                return new Tuple2<>(s, 1);
            }
        });

        JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
            @Override
            public Integer call(Integer i1, Integer i2) {
                return i1 + i2;
            }
        });

        List<Tuple2<String, Integer>> output = counts.collect();

        for (Tuple2<?, ?> tuple : output) {
            // if(tuple._1().equals("hello")) 
            System.out.println(tuple._1() + ": " + tuple._2());
        }
        spark.stop();
    }
}

spark可以专门去统计某个词吗,而不是把所有的词都统计了

我想知道日志文件中存在多少个2017,我不想知道其他的信息,这个在spark中可以实现吗?

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDNRGY 2017-03-12 19:35
关注
貌似不能只搜索目标词,spark会把所有的词都统计

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 05:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据，spark ，doris mysql spark 大数据
2023-01-17 14:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
如何在IntelliJ IDEA中安装完scala后，spark包报红？ intellij-idea spark
2022-04-19 03:52

回答 2 已采纳依赖和依赖的版本都要对上
大数据之Spark案例实操完整使用(第六章)
2022-06-27 02:02

小坏讲微服务的博客 大数据之Spark案例实操完整使用一、案例一 1、准备数据 2、需求 1：Top10 热门品类 3、需求说明方案一、实现方案二实现方案三二、需求实现 1、需求 2：Top10 热门品类中每个品类的 Top10 活跃 Session 统计 2...
大量单条数据使用spark效率高吗？ spark
2018-01-16 00:25

回答 1 已采纳确认几个事情： 1）数据在哪 spark能不能分布式访问比如HDFS 就OK 2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别 3）不理解只能单条生成
如何使用spark mlib进行疾病概率的预测？ spark 决策树大数据
2022-02-09 06:07

回答 1 已采纳二分类本来输出的就是概率，只不过平时习惯性得到0 和 1 是概率划分过界限后得到的结果。很多模型也都是给出了两个预测接口 predict, predict_proba
求解答：如何使用sparksql进行模糊查询？ scala spark 大数据
2022-05-19 09:16

回答 1 已采纳 SELECT SUBSTR(NAME,1,INSTR(NAME,'(')-1),COUNT(1)FROM (SELECT '顶层(共20层)' NAME UNION ALLSELECT '顶层(共21
美团是如何应用Spark处理大数据的？
2019-12-05 07:23

BAO7988的博客本文介绍了美团引入Spark的起源，基于Spark所做的一些平台化工作，以及Spark在美团具体应用场景下的实践。总体而言，Spark由于其灵活的编程接口、高效的内存计算，能够适用于大部分数据处理场景。前言美团最初的...
为什么要用spark-submit提交任务？ spark
2022-09-16 11:01

回答 1 已采纳因为spark是计算引擎，你是将你的代码提交到spark上运行，不是运行spark程序
spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 12:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
JAVA服务端如何与SPARK服务器交互？？ java spark 服务器
2015-09-05 06:28

回答 3 已采纳 http://shiyanjun.cn/archives/742.html
用Spark实现的词频统计
2023-03-13 10:51

Argonaut春的博客为了能直观地感受 Spark 框架的效果，接下来我们实现一个大数据学科中最常见的教学案例 WordCount。
大数据开发实战：美团是如何应用Spark处理大数据的？
2019-07-27 07:53

bobo79888的博客开发人员提取特征主要还是通过ETL来完成，有些数据使用Spark来处理，比如用户搜索关键词的统计。开发人员提供的特征数据，需要按照平台提供的配置文件格式添加到特征库，比如在图团购的配置文件中，团购业务中有...
IT行业流行的ABC是什么？大数据开发学习路径是怎么样的？
2019-11-17 13:35

李旭me的博客要说当下IT行业什么最火？ABC无出其右。所谓ABC者，AI + Big Data + Cloud也...大数据工程需要解决数据的定义、收集、计算与保存的工作，因此大数据工程师们在设计和部署这样的系统时首要考虑的是数据高可用的问题，...
转：大数据真实案例：Spark在美团的实践
2019-04-22 15:51

爱萨萨的博客开发人员提取特征主要还是通过ETL来完成，有些数据使用Spark来处理，比如用户搜索关键词的统计。开发人员提供的特征数据，需要按照平台提供的配置文件格式添加到特征库，比如在图团购的配置文件中，团购业务中有一...
没有解决我的问题, 去提问

如何用spark统计某个关键词?

2条回答 默认 最新

2条回答默认最新