求问如何画MapReduce统计单词个数过程？

试画出使用MapReduce来对英语句子“Whatever is worth doing is worth doing well”进行单词统计的过程

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

qianqian_blog 2018-10-21 13:02

关注

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

  public static class IntSumReducer 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}
    这是使用Java写的，具体你可以搭建Hadoop单机，然后引用这串代码，就可以统计啦，网上教程很多

报告相同问题？

关注问题

如何用python进行mapreduce编写统计单词所在行？ python
2021-04-06 18:40

回答 2 已采纳 from mrjob.job import MRJob class FrequencyCount(MRJob): def mapper(self, _, line): words = line
MapReduce统计单词出现次数，但是结果显示出多个 hdfs mapreduce
2022-04-21 17:49

回答 2 已采纳发一下你的mr程序可能reduce阶段的代码写错了吧
idea里面运行mapreduce报这个错误，如何解决？ java mapreduce
2023-01-24 08:24

回答 1 已采纳望采纳！！新年快乐！！数据表中设置了主键(Primary Key)，而主键对应的值是不允许重复的。错误提示为：你插入的记录与数据表中原有记录的主键重复了(Duplicate)。所以插入失败。
大数据MapReduce统计单词实例
2021-03-14 18:20

赵广陆的博客目录1 梳理单词计数的执行流程2 实战WordCount3 web界面中查看任务执行情况 1 梳理单词计数的执行流程上面的是单个文件的执行流程，有一些现象看起来还是不明显下面我们来看一个两个文件的执行流程 2 实战...
MapReduce平均数成绩怎么求每行的平均数 hadoop mapreduce 有问必答
2021-12-17 00:13

回答 1 已采纳 package com.hpu.hadoop.test; import org.apache.hadoop.io.DoubleWritable; import org.apache.hadoop.
Eclipse里如何debug跟踪MapReduce程序到hadoop源码里？ hadoop java mapreduce
2015-07-31 08:43

回答 2 已采纳 print is all you need
请问maprduce中wordcount实例程序中map和reduce两个过程可以分别输出结果吗？ hadoop mapreduce 大数据有问必答
2021-10-14 10:28

回答 4 已采纳可以的参考这篇文章: 手把手教你编写MapReduce代码并运行_Daivei_lai的博客-CSDN博客 MapReduce编程初体验需求
大数据小型项目源码之mapreduce英语单词频次统计
2018-01-17 18:44

大数据小型项目源码之mapreduce英语单词频次统计，附带所需全部jar包，欢迎下载学习。
MapReduce怎么求每个学生平均数啊我算出来结果只有是把成绩重新打出来了 hadoop mysql sql
2021-12-15 15:49

回答 2 已采纳我只发了核心的代码reduce阶段，你可以借鉴下，不懂我可以解释 ```java public class AvgReducer extends Reducer<Text, Avg,Text,
MapReduce分析气象数据 java linux mapreduce
2022-06-19 22:26

回答 3 已采纳是只能使用mapreduce写吗，你把他整成sql，操作不是简单多了吗
想问一下这个应该怎么做，完全没有思路 hadoop mapreduce mysql
2022-12-12 14:27

回答 1 已采纳一台虚拟机，那就需要搭建伪分布式的hadoop集群。mapreduce是写好的统计词频的代码，导出jar包，放到hadoop集群中运行就可以了。网上一大堆资料的。
MapReduce统计单词数目详细说明
2020-10-12 20:39

ygpGoogle的博客文章目录一、准备数据二、MR的编程规范一、准备数据注意：准备的数据的格式必须是文本编码必须是utf-8无bom!...③将编写的Mapper和Reducer进行组合，组合成一个Job ④对Job进行设置，设置后运行 ...
debug调试无法运行 Method threw.Cannot evaluate org.apache.hadoop.mapreduce.Job.toString() hadoop mapreduce 大数据有问必答
2023-04-05 23:37

回答 2 已采纳参考这篇文章试下https://blog.csdn.net/weixin_37895026/article/details/125660368
MapReduce编程：单词计数--《大数据基础教程》
2021-10-27 16:27

一顿吃不饱的博客 MapReduce编程：单词计数 1、实验描述使用mapreduce编程，完成单词计数实验时长：90分钟主要步骤：启动Hadoop集群编写代码打包程序，并提交至HDFS运行查看实验结果文件 2、实验环境虚拟机数量：3 系统...
hadoop mapreduce java 单词统计三个实现方法
2020-11-28 23:59

菜菜的中年程序猿的博客 1、统计文件准备1.1 创建需要统计单词的文件1.2 上传到hdfs文件系统上2、创建java项目2.1 配置文件2.2 java代码2.2.1 WordCountMapper 类2.2.2WordCountReducer 类2.2.3 MainClass 类3、参数设置4、运行结果 ...
没有解决我的问题, 去提问

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

码龄粉丝数原力等级 --

求问如何画MapReduce统计单词个数过程？

1条回答

码龄粉丝数原力等级 --

悬赏问题