hadoop中mapreduce运行结果和逾期结果不一致

hadoop中编译运行mapreduce的jar包没有报错也能出现结果，为什么统计出来的结果未计数呢？最后一张是出来的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

AllenGd 领域专家: 大数据技术领域 2023-04-20 16:37

关注


import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
public class WordCount {
       /*   
        * 先经过mapper运算，然后才是reducer。    
        * 内部类：映射器 Mapper<Key_IN, Value_IN, Key_OUT, Value_OUT>    
        * 首先读取源文本    
        */
 
    public static class WcMap extends Mapper<Object,Text,Text,IntWritable>{
         //占位体，1，查到一个就占个坑
         private final static IntWritable one=new IntWritable(1);
         //文本
         private Text word=new Text();
         //每次调用map方法会传入split中一行数据。
         //key：该行数据所在文件中的位置下标，value：该行内容（数据），context：上下文对象，在整个wordcount运算周期内存活。
         //这里K、V像这样[K,V]
         //重写map方法，实现理想效果。WcMap的实例只有一个，但实例的这个map方法却一直在执行，直到读取结束
         @Override
         protected void map(Object key, Text value,
                  Mapper<Object, Text, Text, IntWritable>.Context context)
                  throws IOException, InterruptedException {
         //拆分字符串，返回单词集合。默认以空格和换行/回车拆分
             StringTokenizer itr=new StringTokenizer(value.toString());
         /*补充：
           StringTokenizer是一个用来分隔String的应用类，相当于VB(Visual Basic是一种由微软公司开发的结构化的、模块化的、面向对象的、包含协助开发环境的事件驱动为机制的可视化程序设计语言)的split函数。
           StringTokenizer是字符串分隔解析类型，属于：Java.util包。
           1.StringTokenizer的构造函数
           StringTokenizer（String str）：构造一个用来解析str的StringTokenizer对象。
           java默认的分隔符是“空格”、“制表符（‘\t’）”、“换行符(‘\n’）”、“回车符（‘\r’）”。
           StringTokenizer（String str，String delim）：构造一个用来解析str的StringTokenizer对象， 并提供一个指定的分隔符。
           StringTokenizer（String str，String delim，boolean returnDelims）：构造一个用来解析str的StringTokenizer对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。
          */
         //遍历一行的全部单词
             while(itr.hasMoreTokens()){
         //将文本转为临时Text变量
                  String curword=itr.nextToken();
                  word.set(curword);
         //将单词保存到上下文对象（单词，占位体），输出
                  context.write(word, one);
             }
         }       
    }
 
   /************************************************************************
    *  在Mapper后，Reducer前，有个shuffle过程，会根据k2将对应的v2归并为v2[...]  *
    *************************************************************************/
   /**
    * mapper结束后，执行现在的reducer。
    * 内部类：拆分器 Reducer<Key_IN, Value_IN, Key_OUT, Value_OUT>
    */
 
public static class WcReduce extends Reducer<Text,IntWritable,Text,IntWritable>{
//计数器。个数统计
    private IntWritable times=new IntWritable();
      /**
        * 重写reduce方法，实现理想效果
        * WcReduce的实例也只有一个，但实例的这个reduce方法却一直在执行，直到完成统计
        * Key：单词。Values：value的集合，也就是[1,1,1,...]。context：上下文对象
        * 这里这里K、V像这样[K,V[1,1,1,...]]。每执行一次，key就是一个新单词，对应的values就是其全部占位体
       **/
 
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values,
             Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
 
         int sum=0;
        //累加value的元素，有多少个占为体1，即有多少个指定单词
         for(IntWritable i:values){
             sum +=i.get();//对单词为key的计数统计。i是IntWritable类型不能直接加，所以i.get（）就是把IntWritable类型变成整数int类型
         }
         times.set(sum);//每次set一下都会清空之前的值
        //终于将单词和总个数再次输出
         context.write(key, times);//输出到 hdfs：/output中到结果文件
    }
}
 
    public static void main(String[] args) throws Exception {
        //HDFS配置
         Configuration conf=new Configuration();
        //作业（环境）
         Job job =Job.getInstance(conf);
         job.setJarByClass(WordCount.class);//执行作业的类
         job.setMapperClass(WcMap.class);//读取元数据，执行map运算的类
         /* Combiner
　　   * 通常，每一个map可能会产生大量的输出，combiner的作用就是在map端对输出先做一次合并，以减少传输到reducer的数据量。
　　   * combiner的输入输出类型必须和mapper的输出以及reducer的输入类型一致
        */
         //job.setCombinerClass(WcReduce.class);　　　　// 统计数据，执行reducer的类
         job.setReducerClass(WcReduce.class);                  //统计数据，执行reducer的类
         job.setOutputKeyClass(Text.class);                         //设置好输出的key的类型，和context上下文对象write的参数类型一致。
         //job.setNumReduceTasks(1);                                 //设置reduce任务的个数
         job.setOutputValueClass(IntWritable.class);            // 设置输出的value类型
         FileInputFormat.addInputPath(job, new Path("hdfs://manager:8020/test/input/wc.txt"));// 元数据路径，（输入的文件或者目录）必须已存在
         FileOutputFormat.setOutputPath(job, new Path("hdfs://manager:8020/test/output/wc"));// 统计结果输出路径（输出的文件或者目录），程序自动创建
         System.exit(job.waitForCompletion(true)?0:1);// 等待提交作业到集群并完成，才结束程序。等待job完成，若系统运行成功， 则返回0 ，否则返回1
    }
}

报告相同问题？

关注问题

【大数据基础】基于信用卡逾期数据的Spark数据处理与分析结果
2023-04-10 09:37

9. **Spark与Hadoop生态系统**：虽然Spark可以独立运行，但它也可以与Hadoop的HDFS和YARN结合，方便在大规模分布式集群上运行。通过上述分析，我们可以得出结论，这个项目利用Spark的高效计算能力，对信用卡逾期...
基于Hadoop平台使用MapReduce统计某银行信用卡违约用户数量
2019-09-06 21:56

普通Gopher的博客统计某银行信用卡违约用户数量 csv下载地址 ...BILL_AMT1～BILL_AMT6和PAY_AMT1～PAY_AMT6中数字标识的含义也是如此。 PAY_1～PAY_6的取值含义为：0 = 及时还；1 = 还款延迟一个月；2 = 还款延迟两个月；3...
从Hadoop到Flink：大数据预测分析技术演进史
2025-09-25 10:03

SuperAGI架构师的AI实验室的博客在“数据就是新石油”的时代，企业需要从数据中挖掘规律，预测未来（比如用户下一次购买时间、设备故障风险）。但数据量从GB级跃升至PB级，传统工具无法处理。为什么Hadoop能成为大数据“开山鼻祖”？它解决了哪些...
大数据平台、数据仓库、数据湖和数据中台
2025-03-23 07:15

Bryan Ding的博客阿里云的数据湖构建DLF，通过统一管理元数据和权限控制，对接多种计算引擎，充分发挥了数据湖的优势。...在某大型制造企业中，数据中台整合了生产车间的设备运行数据、供应链的原材料采购数据、销售部门的订单数据等。
大数据领域数据中台的技术选型与要点
2025-07-07 18:16

AI大数据智能洞察的博客面对琳琅满目的大数据工具（比如Spark、Flink、Snowflake、Databricks），到底该选哪一个来搭建数据中台？我们的范围覆盖数据中台的三大核心模块——数据存储（放数据的“容器”）、数据计算（处理数据的“发动机”...
揭秘大数据领域数据中台的建设难点
2025-08-11 21:10

AI Python 编程的博客数据中台是企业级的、面向业务的数据资产运营与服务体系，它通过对企业全域数据的采集、治理、建模、分析和服务，实现数据资产化和业务赋能的闭环。更通俗地说，数据中台就像企业的"中央数据厨房采购部门（数据接入...
大数据领域分布式计算在金融行业的应用
2025-05-03 13:11

程序员光剑的博客金融行业作为数据密集型领域，每天...本文聚焦分布式计算技术（如Hadoop、Spark、Flink）在金融行业的落地实践，覆盖技术原理、算法实现、实战案例与未来趋势，为金融机构数据团队提供从架构设计到场景应用的完整参考。
大数据领域数据挖掘的技术趋势
2025-09-20 23:17

程序员光剑的博客传统瓶颈：基于Hadoop MapReduce的批处理模式需数小时完成一次全量挖掘，无法满足实时决策需求（如实时推荐、欺诈检测）；案例：某支付平台早期采用T+1批处理分析欺诈交易，导致日均损失超百万，后升级实时流处理...
深度剖析大数据领域数据架构的层次结构
2025-09-02 01:42

程序员光剑的博客 大数据时代，我们每天都会产生海量数据（比如刷抖音的行为、网购的订单、智能手表的心率），但这些数据本身没有价值——只有通过系统的架构设计，将数据“收集-存储-处理-输出”，才能转化为可用于决策的价值（比如...
2026毕设-基于Hadoop的智慧校园数据共享平台的设计与实现
2025-09-13 17:25

计算机-秋大田的博客摘要：本文介绍基于Hadoop的智慧校园数据共享与交换平台的设计与实现，旨在解决高校信息化建设中的"信息孤岛"问题。平台采用Python+Django框架，结合Hadoop分布式技术，实现校园各子系统数据的统一管理、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月20日

hadoop中mapreduce运行结果和逾期结果不一致

1条回答 默认 最新

问题事件

1条回答默认最新