getPartition中的numPartitions参数怎么获取的？

job设置中没有设置NumReduceTask个数，
int getPartition(IntWritable key, IntWritable value, int numPartitions)这个参数怎么确定呢？

例子全部代码如下：

 import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import java.io.IOException;

/**
 * Created by dell on 2017/9/25.
 * @auther w
 *
 */
public class MySort {

    static final String INPUT_PATH = "hdfs://hadoopwang0:9000/test";
    static final String OUT_PATH = "hdfs://hadoopwang0:9000/testout";
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {


        Configuration conf = new Configuration();
//        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
//        if (otherArgs.length != 2) {
//            System.err.println("Usage: wordcount <in> <out>");
//            System.exit(2);
//        }

        Job job = new Job(conf, "MySort");
        job.setJarByClass(MySort.class);
        job.setMapperClass(MyMap.class);
        job.setReducerClass(MyReduce.class);
        job.setPartitionerClass(MyPartition.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(INPUT_PATH));
        FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
        System.exit(job.waitForCompletion(true) ? 0:1);
    }

    //Map方法：将输入的value转化为IntWritable类型，作为输出的Key。
    public static class MyMap extends Mapper<Object, Text, IntWritable, IntWritable>{
        private static  IntWritable data = new IntWritable();

        @Override
        protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            String line = value.toString();

            data.set(Integer.parseInt(line));
            context.write(data, new IntWritable(1));
        }

    }

    //Reduce方法：将输入的Key复制到输出的value中，然后根据输入的<value-list>中元素的个数决定Key的输出次数
    //全局用linenum来代表key的位次
    public  static class MyReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable >{
        private static IntWritable linenum = new IntWritable(1);

        @Override
        protected void reduce(IntWritable key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            System.out.println("Reducer:"+key);
            for (IntWritable val : values) {
                context.write(linenum, key);
                linenum = new IntWritable(linenum.get() + 1);
            }
        }
    }
    //自定义Partition函数:此函数根据输入的数据的最大值和MapReduce框架中的partition数量获取将输入数据按照
    //按照大小分块的边界，然后根据输入数值和边界关系返回对应的Partiton ID
    public static class MyPartition extends Partitioner<IntWritable, IntWritable>{
        public int getPartition(IntWritable key, IntWritable value, int numPartitions) {
            int Maxnumber = 6522;
            int bound = Maxnumber / numPartitions + 1;
            int Keynumber = key.get();
            for (int i = 0; i < numPartitions; i++) {
                if (Keynumber < bound * i && Keynumber >= bound * (i - 1)) {
                    return i - 1;
                }
            }
            return -1;
        }
    }


}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-09-28 15:57
关注
http://www.cnblogs.com/xwdreamer/archive/2011/10/27/2296943.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据技术之Hadoop(MapReduce篇）中
2023-09-17 20:41

cvbn_的博客 大数据技术之Hadoop(MapReduce篇）中
三-中下, 大数据基础架构Hadoop- MapReduce框架原理和工作流程剖析
2021-07-13 21:36

菜菜的大数据开发之路的博客文章目录3.1 InputFormat 数据输入3.1.0 切片与MapTask并行度决定机制3.1.1 Job提交流程源码和切片源码详解3.1.2 FileInputFormat 切片机制3.1....切片过程3.1.2.2 FileInputFormat 切片大小的参数配置3.1.5 结构梳理...
大数据学习——MapReduce
2023-05-17 21:39

daybreak98的博客（1）实现Writable接口（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造（3）重写序列化和反序列化方法，同时要求顺序一致（4）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，...
大数据技术之MapReduce
2023-02-08 06:44

wespten的博客 Driver阶段相当于YARN集群的客户端，用于提交我们整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象 8、WordCount案例实操 1. 需求在给定的文本文件中统计输出每一个单词出现的总次数。 ...
【大数据开发面试笔记】
2022-05-31 21:35

爱酸柠檬的博客 大数据开发面试笔记
【大数据面试题】Hadoop
2023-04-08 17:37

十二imin的博客 Hadoop不是指具体的⼀个框架或者组件，它是Apache软件基⾦会下⽤Java语⾔开发的⼀个开源分布式计算平台，实现在⼤量计算机组成的集群中对海量数据进⾏分布式计算，适合⼤数据的分布式存储和计算，从⽽有效弥补了...
大数据篇--数据倾斜
2021-06-01 12:41

小强签名设计的博客 大数据从0到1的完美落地之Shuffle和调优【大数据面试】【框架】Shuffle优化、内存参数配置、Yarn工作机制、调度器使用 2.结合spark的shshuffle来说：窄依赖（narrow dependency）：一个父RDD的partition至多...
大数据技术之Hadoop（MapReduce）
2023-03-01 01:00

骚戴的博客 大数据技术之Hadoop（MapReduce）
大数据培训教程Partition分区案例实操
2022-11-25 09:52

尚硅谷铁粉的博客 / 7 将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行。// 3 指定本业务job要使用的mapper/Reducer业务类。// 输入输出路径需要根据自己电脑上实际的输入输出路径设置。// 2 指定本程序的...
大数据基础（Hadoop）
2024-04-19 16:31

计算机设计（软件、大数据）的博客通过一些命令来访问HDFS，就比如HDFS的增删查改的操作 HDFS的文件块大小（面试重点） HDFS中的文件在物理上是分块存储的（Block），块的大小通过配置参数（dfs.application）来规定。默认老版本64M，新版本上是128MB...
【Hadoop综合实践】手机卖场大数据综合项目分析
2023-06-07 17:31

大数据小禅的博客 public class PhoneNumberGenerator { //生成一万个手机号码，只需将 generatePhoneNumbers 方法中的参数 count 修改为 10000 即可 //移动 private static final String[] CHINA_MOBILE_PREFIX = {"134", "139", ...
大数据技术之hadoop ——（十）Shuffle机制、MapReduce中的shuffle流程
2021-08-21 11:24

「已注销」的博客 /** * @author zhouhao * @date 2021/7/31 - 13:33 */ public class ProviencePartitioner extends Partitioner{ @Override public int getPartition(Text text, FlowBean flowBean, int numPartitions) { //Text是...
大数据技术之Spark（一）Spark Core
2022-11-15 19:41

Red-P的博客 Spark MLlib,Spark GraphX ,此处不讲第2章 Spark 快速上手 2.1 增加 Scala 插件 2.2 Word Count 案例为了能直观地感受 Spark 框架的效果，接下来我们实现一个大数据学科中最常见的教学案例 WordCount /...
大数据方向面试问题
2022-08-08 23:52

柳小葱的博客 coalesce(numPartitions, shuffle = true) repartition一定会发生shuffle，coalesce根据传入的参数来判断是否发生shuffle一般情况下增大rdd的partition数量使用repartition，减少partition数量时使用coalesce spark...
【大数据实验】06：MapReduce操作
2022-05-06 19:29

hello world 999的博客 MapReduce操作 OVERVIEWMapReduce操作实验环境一、WordCount单词计数1.实验内容2.实验原理3.实验步骤（1）启动Hadoop集群（2）准备数据文件（3）创建Map/Reduce项目（4）程序测试及运行二、MapReduce数据去重1....
大数据实训笔记4：mapreduce
2022-07-03 20:02

Roslin_v的博客介绍了mapreduce的核心思想，序列化与反序列化，并给出多个实际应用案例，包括过滤、排序、分区、组合、Join、在MySql中的读写操作。
大数据开发面试知识点复习2
2022-04-26 20:40

爱敲代码的小黑的博客文章目录大数据开发复习课程1、Hadoop1.1、介绍Hadoop1.2、Hadoop特性优点1.3、hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？1.4、Hadoop主要的配置文件1.5、Hadoop集群重要命令1.6、HDFS的垃圾桶...
大数据知识总结
2023-10-25 19:09

嗎嗎的博客 大数据面试基础知识囊括hadoop、spark、hive、kafka等
大数据技术学习笔记（五）—— MapReduce（2）
2024-03-05 17:00

夏木夕的博客 } // 判断是否要进行切片（主要判断当前文件是否是压缩文件，有一些压缩文件时不能够进行切片） if (isSplitable(job, path)) { // 获取hdfs中数据块的大小 long blockSize = file.getBlockSize(); // 计算切片的...
大数据之Hadoop MapReduce(二)
2022-11-19 16:12

##明天的博客 public class ProvincePartitioner extends Partitioner, FlowBean> { @Override public int getPartition(Text text, FlowBean flowBean, int numPartitions) { //获取手机号前三位prePhone String phone = text....
没有解决我的问题, 去提问

悬赏问题

¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记

getPartition中的numPartitions参数怎么获取的？

1条回答 默认 最新

悬赏问题

1条回答默认最新