MapReduce中reduce函数不执行

准备自己写一个代码熟悉一下mapreduce,但是写好之后发现reduce函数不执行,运行程序也没有报错,逛了很多论坛都没有解决方案,因为是初步接触mapreduce,所以对mapreduce的编程不太了解,希望各位大大帮我看下代码有没有问题。
代码如下:
Mapper:

 package Utils;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class BayMapper extends Mapper<Object, Text, Cell, Text> {
    @Override
    public void map(Object key, Text value, Context context) throws IOException, InterruptedException{
        StringTokenizer itr = new StringTokenizer(value.toString());
        Cell[][] cells = new Cell[ClusterConfig.cellRow][ClusterConfig.cellColumn];
        int cellx = 0;
        int celly = 0;
        for(int i = 0;i<ClusterConfig.cellRow;i++)
            for(int j = 0;j<ClusterConfig.cellColumn;j++){
                cells[i][j] = new Cell();
            }

        while(itr.hasMoreTokens()){
            String outValue = new String(itr.nextToken());
            System.out.println(outValue);
            String[] list = outValue.split(",");

            //list.length = 2;
            for(int i = 0;i<list.length;i++){
                double x;
                double y;
                x = Double.valueOf(list[0]);
                y = Double.valueOf(list[1]);

                cellx = (int) Math.ceil((x - ClusterConfig.xmin)
                        / ClusterConfig.intervalx);
                celly = (int) Math.ceil((y - ClusterConfig.ymin)
                        / ClusterConfig.intervaly);
                //cells[cellx][celly].addnumberPoints();                //传入该格子中点的个数
            }
            context.write(cells[cellx][celly],new Text(outValue));
        }
    }
}

Reducer:

 package Utils;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class BayReducer extends Reducer<Cell, Text, Cell, IntWritable> {

    @Override
    protected void reduce(Cell key,Iterable<Text> values,Context context) throws IOException, InterruptedException{
        int count = 0;
        Iterator<Text> iterator = values.iterator();
        while(iterator.hasNext()){
            count ++;
        }
        if(count >= 20){
            context.write(key,new IntWritable(count));
        }
    }
}

Driver:

 package Cluster;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

import Utils.BayMapper;
import Utils.BayReducer;
import Utils.Cell;

public class ClusterDriver {

    /**
     * @param args
     * @throws IOException
     * @throws InterruptedException
     * @throws ClassNotFoundException
     */
    public static void main(String[] args) throws IOException,
            ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        conf.set("mapred.job.tracker", "localhost:9000");
        String[] otherArgs = new GenericOptionsParser(conf, args)
                .getRemainingArgs();

        if (otherArgs.length != 2) {
            System.err.println("Usage: Data Cluster <in> <out>");
            System.exit(2);
        }

        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "Baymax Cluster");
        job.setJarByClass(ClusterDriver.class);

        job.setMapperClass(BayMapper.class);
        job.setReducerClass(BayReducer.class);

        job.setOutputKeyClass(Cell.class);
        job.setOutputValueClass(IntWritable.class);

        Path in = new Path(otherArgs[0]);
        Path out = new Path(otherArgs[1]);

        FileInputFormat.addInputPath(job, in);// 设置输入路径
        FileOutputFormat.setOutputPath(job, out);// 设置输出路径

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }

}

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
mapreduce编程中reduce函数可否使用多线程下载一个网页
想编写一个程序用到mapreduce框架,实现多线程下载网页 不知能否实现, 我的理解是:一个key/value<list>对调用一次reduce函数,对一个网页没有必要用多线程。这里传入的key就是url
MongoDB中的mapReduce中reduce文件只作用在一个文档上
小白刚接触MongoDB,看到mapReduce这里不是很清楚,自己编了一段代码,想做个计数,然后发觉map方法出来的value如果只有一个元素的时候,好像不参与到reduce函数的计算中。 如: ``` var map=function(){ emit(this.name,{count:1}) } var reduce=function(key,values){ var count=0; for(var i in values){ count+=values[i].count*2; } return {name:key,age:count} } db.student.mapReduce(map,reduce, { out:"test" } ).find() ``` 输出结果为: ``` { "_id" : "xly", "value" : { "name" : "xly", "age" : NumberInt(4) } } { "_id" : "xxx", "value" : { "name" : "xxx", "age" : NumberInt(4) } } { "_id" : "zzz", "value" : { "count" : NumberInt(1) } } ``` 其中name为zzz的数据只有1个。所以在reduce中把count乘以2,在zzz中没有体现。 有没有大神解释一下,是不是跟python的reduce函数一样要接收两个参数还是怎么回事,还有如果只有一个文档的时候怎么对里面的值进行操作?
MapReduce中Reduce处理疑问
处理同一批数据时,能否在Reduce阶段控制结果分别输出在多个不同的文件中? 有没有实例?求解?
mapreduce的reduce个数设置无效,始终只有一个reduce任务,输出的文件也只有一个
job.setNumReduceTasks(2); 这样设置reduce个数无效,调试发现始终只有一个reduce任务,输出文件也就只有一个part-r-00000,如果加一句System.out.println(job.getNumReduceTasks());会发现打印出来的“NumReduceTasks”的确是2,但实际运行结果始终只有一个。 如果不在eclipse中运行,生成jar包运行也是一样。 网上有人说是伪分布模式或者单机模式就会这样,但我不是这种模式,我用虚拟机建了集群的。 请问这是怎么回事?
hadoop一个mapreduce的JOB最短执行时间
如题,我想用hadoop来进行文本检索,想法是一个查询对应一个JOB,检索的话肯定时间要快。 但是我在eclipse中跑一个JOB时,即使是什么都不做,也需要7秒,用hadoop jar命令更久。 请问这个时间可以优化吗,还是Mapreduce初始JOB就需要这么久。还有一个奇怪的现象: JOB如果遍历文本集合来进行检索,竟然只需要6秒多,比什么都不干还快。
storm 或mapreduce中警告信息Hbase租约超期
storm 或mapreduce中警告信息Hbase租约超期,下面警告是因为什么?如何修改?谢谢。 hbase.regionserver.lease.period" is deprecated. Instead, use "hbase.client.scanner.timeout.period
eclipse运行MapReduce程序出现找不到类
如果使用setJarByClass会出现找不到类,这个应该怎么解决呢? ![图片说明](https://img-ask.csdn.net/upload/201912/04/1575464809_363370.png)
MapReduce中执行HTMLUnit 报nosuchfielderror:INSTANCE
public static class CrawlReducer extends TableReducer<Text, IntWritable, NullWritable>{ private String url = ""; @Override protected void reduce(Text key, Iterable<IntWritable> value, Context context) throws IOException, InterruptedException{ this.url = key.toString(); final WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setCssEnabled(false); webClient.getOptions().setJavaScriptEnabled(true); webClient.getOptions().setThrowExceptionOnScriptError(false); webClient.setAjaxController(new NicelyResynchronizingAjaxController()); webClient.getOptions().setTimeout(5000); HtmlPage page = null; try { page = webClient.getPage(url);//运行到这句就出错 } catch (FailingHttpStatusCodeException e1) { e1.printStackTrace(); } catch (MalformedURLException e1) { e1.printStackTrace(); } catch (IOException e1) { e1.printStackTrace(); } String s = page.getPage().asXml(); // Put 实例化,每个词存一行 Put put = new Put(Bytes.toBytes(url)); // 列族为 content,列修饰符为 count,列值为数目 put.add(Bytes.toBytes("content"), Bytes.toBytes("html"), Bytes.toBytes(s)); context.write(NullWritable.get(), put); } 这是Map从Hbase读URL,在reduce里面解析网页过程。运行到getPage就结束了。没币鸟,求大神解脱,好人一生平安
MongoDB MapReduce问题
数据库有以下数据 ![图片说明](https://img-ask.csdn.net/upload/201704/14/1492158765_298412.png) 然后执行 Map Reduce 函数分别为: mapFuncation=function(){ emit(this.name,this.age); }; reduceFunction=function(key,emits){ var reduce={minage:0,maxage:0}; var maxage=emits[0]; var minage =emits[0]; for(var i=0;i<emits.length;i++){ if(emits[i]>maxage) maxage=emits[i]; if(emits[i]<minage) minage=emits[i]; } reduce.minage=minage; reduce.maxage=maxage; return reduce; }; db.teacher.mapReduce(mapFuncation,reduceFunction,{out:"agemax"}); 执行结果: ![图片说明](https://img-ask.csdn.net/upload/201704/14/1492158868_448525.png) 这个结果是正确的结果,是因为表里面的数据很少,当我把表的数据增加到5000条记录是执行的结果就不正常了。如下图 ![图片说明](https://img-ask.csdn.net/upload/201704/14/1492159256_377950.png) 各位高手,请教一下 这个怎么解决
hadoop向mysql写入数据,map执行100%,reduce不执行
开发环境: haddoop2.7.1,jdk1.7 功能描述:从文件中读取数据写入mysql. 问题:为什么程序执行map100%,combine100%,reduce0%.程序没有运行到reduce中 package b508.demo; import java.io.IOException; import java.io.DataInput; import java.io.DataOutput; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.Writable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.db.DBConfiguration; import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat; import org.apache.hadoop.mapreduce.lib.db.DBWritable; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; public class WriteDB3 { // Map处理过程 public static class Map extends Mapper<Object, Text, Text, IntWritable> { private final static IntWritable one = new IntWritable(1); private Text word = new Text(); @Override protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException { // TODO Auto-generated method stub String line = value.toString(); StringTokenizer tokenizer = new StringTokenizer(line); while (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken()); context.write(word, one); } System.out.println("MAP"); } } // combine public static class Combine extends Reducer<Text, IntWritable, Text, IntWritable> { @Override protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable num : values) { sum += num.get(); } context.write(key, new IntWritable(sum)); // System.out.println(key); // System.out.println(sum); // System.out.println("Combine over"); } } // Reduce处理过程 public static class Reduce extends Reducer<Text, IntWritable, WordRecord, Text> { @Override protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, WordRecord, Text>.Context context) throws IOException, InterruptedException { // TODO Auto-generated method stub System.out.println("reduce begin"); int sum = 0; for (IntWritable num : values) { sum += num.get(); } WordRecord wordcount = new WordRecord(); wordcount.word = key.toString(); wordcount.number = sum; context.write(wordcount, new Text()); System.out.println("reduce over"); } } public static class WordRecord implements Writable, DBWritable { public String word; public int number; @Override public void readFields(DataInput in) throws IOException { this.word = Text.readString(in); this.number = in.readInt(); } @Override public void write(DataOutput out) throws IOException { Text.writeString(out, this.word); out.writeInt(this.number); } @Override public void readFields(ResultSet result) throws SQLException { this.word = result.getString(1); this.number = result.getInt(2); } @Override public void write(PreparedStatement stmt) throws SQLException { stmt.setString(1, this.word); stmt.setInt(2, this.number); } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "word"); job.setJarByClass(WriteDB2.class); job.setMapperClass(Map.class); job.setCombinerClass(Combine.class); job.setReducerClass(Reduce.class); job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); job.setOutputKeyClass(WordRecord.class); job.setOutputValueClass(Text.class); Path path = new Path("hdfs://master:9000/input"); FileInputFormat.addInputPath(job, path); // 建立数据库连接 DBConfiguration.configureDB(conf, "com.mysql.jdbc.Driver", "jdbc:mysql://localhost:3306/school", "root", "123456"); // 写入"wordcount"表中的数据 String[] fields = { "word", "number" }; DBOutputFormat.setOutput(job, "wordcount", fields); job.waitForCompletion(true); } }
mongoTemplate 中的mapreduce 的详细用法
求讲解mongoTemplate 中的mapreduce 的详细用法
mapreduce中combiner的作用
代码是求这几个数字的最大值 ![图片说明](https://img-ask.csdn.net/upload/201905/22/1558497629_924698.png) 下面是我的代码 Mapper ``` import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class NumMapper extends Mapper<LongWritable, Text, LongWritable, LongWritable> { public void map(LongWritable ikey, Text ivalue, Context context) throws IOException, InterruptedException { String line=ivalue.toString(); long num = Long.parseLong(line); context.write(new LongWritable(1), new LongWritable(num)); } } ``` Combiner ``` import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; import io.netty.handler.codec.http.HttpHeaders.Values; public class NumCombiner extends Reducer<LongWritable, LongWritable, LongWritable, LongWritable> { @Override protected void reduce(LongWritable key, Iterable<LongWritable> value, Reducer<LongWritable, LongWritable, LongWritable, LongWritable>.Context context) throws IOException, InterruptedException { Iterator<LongWritable> iter=value.iterator(); long max=Long.MIN_VALUE; while(iter.hasNext()) { long tmp=iter.next().get(); max =tmp>max?tmp:max; } context.write(new LongWritable(1), new LongWritable(max)); } } ``` Reducer ``` import java.io.IOException; import java.util.Iterator; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class NumReducer extends Reducer<LongWritable, LongWritable, LongWritable, NullWritable> { public void reduce(Text _key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException { Iterator<LongWritable> ite =values.iterator(); long num=0; if(ite.hasNext()) { num=ite.next().get(); long now =ite.next().get(); num=now>num?now:num; } context.write(new LongWritable(num), NullWritable.get()); } } ``` Driver ``` import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class NumDriver { public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "JobName"); job.setJarByClass(MaxMin.NumDriver.class); job.setMapperClass(MaxMin.NumMapper.class); job.setReducerClass(MaxMin.NumReducer.class); job.setCombinerClass(NumCombiner.class); job.setMapOutputKeyClass(LongWritable.class); job.setMapOutputValueClass(LongWritable.class); job.setOutputKeyClass(LongWritable.class); job.setOutputValueClass(NullWritable.class); FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.77.81:9000/park1/num.txt")); FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.77.81:9000/park2/MaxMin")); if (!job.waitForCompletion(true)) return; } } ``` 我的问题是 如果我注销了在Driver中Combiner的那行代码 我的输出结果就会变成这样 ![图片说明](https://img-ask.csdn.net/upload/201905/22/1558497957_753560.png) 正常如果写了combiner的输出是这样的 ![图片说明](https://img-ask.csdn.net/upload/201905/22/1558498088_283412.png) 我想问问为啥会这样 因为按照我的理解是combiner只是进入reduce之前的一个本地聚合 并不是一个会影响输出结果的东西 麻烦来个大神解释一下~
Hadoop节点调用 mapreduce
我在一个节点上写了map reduce 函数后,其它的节点要得到这2个函数进行数据处理运算, 他们怎么得到的呢? 谁知道请告诉我一下 ,很想知道内部过程。
运行mapredurce出现Method threw 'java.lang.IllegalStateException' exception. Cannot evaluate org.apache.hadoop.mapreduce.Job.toString()
执行下述代码后在,创建job后会有上述异常,但是可以执行到最后,但是job没有提交上去执行,在历史里也看不到有执行记录求帮助新手o(╥﹏╥)o。 package MapReducer; import com.sun.org.apache.bcel.internal.generic.RETURN; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; import java.io.File; import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import java.util.StringTokenizer; /** * @Describe MapReducer第一个读取文档并计数 * @Author zhanglei * @Date 2019/11/18 22:53 **/ public class WordCountApp extends Configured implements Tool { public int run(String[] strings) throws Exception { String input_path="hdfs://192.168.91.130:8020/data/wc.txt"; String output_path="hdfs://192.168.91.130:8020/data/outputwc"; Configuration configuration = getConf(); final FileSystem fileSystem = FileSystem.get(new URI(input_path),configuration); if(fileSystem.exists(new Path(output_path))){ fileSystem.delete(new Path(output_path),true); } Job job = Job.getInstance(configuration,"WordCountApp"); job.setJarByClass(WordCountApp.class); job.setMapperClass(WordCountMapper.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); job.setReducerClass(WordCountReducer.class); job.setInputFormatClass(TextInputFormat.class); Path inpath = new Path(input_path); FileInputFormat.addInputPath(job,inpath); job.setOutputFormatClass(TextOutputFormat.class); Path outpath = new Path(output_path); FileOutputFormat.setOutputPath(job,outpath); return job.waitForCompletion(true) ? 0:1; } //继承 public static class WordCountMapper extends Mapper<Object,Text,Text,IntWritable>{ private final static IntWritable one= new IntWritable(1); private Text word = new Text(); public void map(Object key,Text value,Context context) throws IOException, InterruptedException { Text t = value; StringTokenizer itr = new StringTokenizer(value.toString()); while(itr.hasMoreTokens()){ word.set(itr.nextToken()); context.write(word,one); } } } public static class WordCountReducer extends Reducer<Object,Text,Text,IntWritable>{ private final static IntWritable res= new IntWritable(1); public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException { int sum = 0; for(IntWritable val:values){ sum+=val.get(); } res.set(sum); context.write(key,res); } } public static void main(String[] args) throws Exception { int exitCode = ToolRunner.run(new WordCountApp(), args); System.exit(exitCode); } }
【新手】Hadoop MapReduce 执行中Map没有输出
hadoop - hadoop2.6 分布式 - 简单实例学习 - 统计某年的最高温度和按年份将温度从高到底排序 - 原明卓 - 博客频道 - CSDN.NET http://blog.csdn.net/lablenet/article/details/50608197#java 我按照这篇博客做的,运行结果见图。 ----------------------------------------------- 16/10/19 05:27:51 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 16/10/19 05:27:52 INFO input.FileInputFormat: Total input paths to process : 1 16/10/19 05:27:52 INFO util.NativeCodeLoader: Loaded the native-hadoop library 16/10/19 05:27:52 WARN snappy.LoadSnappy: Snappy native library not loaded 16/10/19 05:27:54 INFO mapred.JobClient: Running job: job_201610190234_0013 16/10/19 05:27:55 INFO mapred.JobClient: map 0% reduce 0% 16/10/19 05:28:24 INFO mapred.JobClient: map 100% reduce 0% 16/10/19 05:28:41 INFO mapred.JobClient: map 100% reduce 20% 16/10/19 05:28:42 INFO mapred.JobClient: map 100% reduce 40% 16/10/19 05:28:50 INFO mapred.JobClient: map 100% reduce 46% 16/10/19 05:28:51 INFO mapred.JobClient: map 100% reduce 60% 16/10/19 05:29:01 INFO mapred.JobClient: map 100% reduce 100% 16/10/19 05:29:01 INFO mapred.JobClient: Job complete: job_201610190234_0013 16/10/19 05:29:01 INFO mapred.JobClient: Counters: 28 16/10/19 05:29:01 INFO mapred.JobClient: Job Counters 16/10/19 05:29:01 INFO mapred.JobClient: Launched reduce tasks=6 16/10/19 05:29:01 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=26528 16/10/19 05:29:01 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 16/10/19 05:29:01 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 16/10/19 05:29:01 INFO mapred.JobClient: Launched map tasks=1 16/10/19 05:29:01 INFO mapred.JobClient: Data-local map tasks=1 16/10/19 05:29:01 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=107381 16/10/19 05:29:01 INFO mapred.JobClient: File Output Format Counters 16/10/19 05:29:01 INFO mapred.JobClient: Bytes Written=0 16/10/19 05:29:01 INFO mapred.JobClient: FileSystemCounters 16/10/19 05:29:01 INFO mapred.JobClient: FILE_BYTES_READ=30 16/10/19 05:29:01 INFO mapred.JobClient: HDFS_BYTES_READ=1393 16/10/19 05:29:01 INFO mapred.JobClient: FILE_BYTES_WRITTEN=354256 16/10/19 05:29:01 INFO mapred.JobClient: File Input Format Counters 16/10/19 05:29:01 INFO mapred.JobClient: Bytes Read=1283 16/10/19 05:29:01 INFO mapred.JobClient: Map-Reduce Framework 16/10/19 05:29:01 INFO mapred.JobClient: Map output materialized bytes=30 16/10/19 05:29:01 INFO mapred.JobClient: Map input records=46 16/10/19 05:29:01 INFO mapred.JobClient: Reduce shuffle bytes=30 16/10/19 05:29:01 INFO mapred.JobClient: Spilled Records=0 16/10/19 05:29:01 INFO mapred.JobClient: Map output bytes=0 16/10/19 05:29:01 INFO mapred.JobClient: CPU time spent (ms)=16910 16/10/19 05:29:01 INFO mapred.JobClient: Total committed heap usage (bytes)=195301376 16/10/19 05:29:01 INFO mapred.JobClient: Combine input records=0 16/10/19 05:29:01 INFO mapred.JobClient: SPLIT_RAW_BYTES=110 16/10/19 05:29:01 INFO mapred.JobClient: Reduce input records=0 16/10/19 05:29:01 INFO mapred.JobClient: Reduce input groups=0 16/10/19 05:29:01 INFO mapred.JobClient: Combine output records=0 16/10/19 05:29:01 INFO mapred.JobClient: Physical memory (bytes) snapshot=331567104 16/10/19 05:29:01 INFO mapred.JobClient: Reduce output records=0 16/10/19 05:29:01 INFO mapred.JobClient: Virtual memory (bytes) snapshot=2264113152 16/10/19 05:29:01 INFO mapred.JobClient: Map output records=0 ----------------------------------------------- yyyy-MM-dd HH:mm:ss\t温度 example:1995-10-10 10:10:10 6.54 这是数据源格式,我把 RunJob中的 int year=c.get(1); String hot=ss[1].substring(0,ss[1].lastIndexOf("°C")); KeyPari keyPari=new KeyPari(); keyPari.setYear(year); 中的°C改成了\n。 ----------------------------------------------- 代码和博文的一样,只删掉了MAP里面的IF判断和修改了输入输出路径。求前辈们指教一下为什么会这样,深表感激。
MapReduce的value值处理!
如何把MapReduce中map端传的value值放到hashmap中?
关于mapreduce的内存配置问题 。
想请教下,mapreduce的内存遵循什么原则或计算公式配置,比如说我电脑本机内存16g,开3台虚拟机构成集群,每台虚拟机分配3g内存。那么我mapreduce配置文件中相关参数该配多少内存? 我内存参数都不配,使用默认的情况下,当数据量上去了,读取mongo数据1000条就会开始报错了。
自己写的hadoop ,MapReduce程序不能并行
** 学习hadoop有一段时间了,在写hadoop 程序时,尽管是根据官方例子,套着模板写出的,但是不能达到真正意义上的并行,也就是说,各分机没有任务运行。 ------------------------------------------------------------------------ ** 运行环境如下: 操作系统: centOS6.3 32位, jdk1.7, hadoop-1.0.3, 1台master,3台worker。 为了具体说明问题,程序如下: package campus; import java.io.IOException; import java.net.URI; import java.util.Set; import java.util.TreeSet; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.compress.CompressionCodec; import org.apache.hadoop.io.compress.GzipCodec; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; public class TestSmsMR { // map public static class TSmsMap extends Mapper<Object, Text, Text, Text> { private static Text keyWord = new Text(); //第一个结点 private static Text valueWord = new Text(); //第二个结点 public void map(Object key, Text value, Context context) { // value: tag: 0 1 u String line = value.toString(); String[] arr = line.split(" |\u0009|\\|"); // 通过 空格、 \t、 | 分割字符串 if ( !(arr[0].equals(arr[1])) ) { try { String tmpKey = arr[0]; String tmpValue = ""; for(int i = 1; i < arr.length; i ++){ tmpValue += arr[i] + " "; } keyWord.set(tmpKey); valueWord.set(tmpValue); // 数据是非对称的,这就需要使用一次 write context.write(keyWord, valueWord); // context.write(valueWord, keyWord); //添加这句的话,必须先看图文件,如果重复则不需要这一行 } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } // 这种方法可行 } } } //reduce write<Text,Set<Text>> public static class TSmsReduce extends Reducer<Text, Text, Text, Text> { private static Text keyStr = new Text(); private static Text valueStr = new Text(); public void reduce(Text key, Iterable<Text> values,Context context) { String writeKey = key.toString(); String writeValues = ""; for (Text val : values) { writeValues += val.toString() + "\t"; } keyStr.set(writeKey); valueStr.set(writeValues); // System.out.println("writeKey: " + writeKey + "\twriteValues: " + writeValues); try { context.write(keyStr, valueStr); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (InterruptedException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } public static void preExectue(String inputPath, String outputPath) throws Exception { Configuration conf = new Configuration(); // conf.setBoolean("mapred.compress.map.output", true); conf.setBoolean("mapred.output.compress", true); // conf.setIfUnset("mapred.map.output.compression.type", "BLOCK"); conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class); conf.addResource(new Path("/usr/hadoop/conf/core-site.xml")); conf.addResource(new Path("/usr/hadoop/conf/hdfs-site.xml")); // 如果 outputPath 存在,那么先删除 Path outPutPath = new Path(outputPath); FileSystem fs = FileSystem.get(URI.create(outputPath), conf); fs.delete(outPutPath); // 自己添加路径 String[] ars = new String[] { inputPath, outputPath }; String[] otherArgs = new GenericOptionsParser(conf, ars) .getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: sotTest <in> <out>"); System.exit(2); } Job job = new Job(conf, "TestSmsMR"); job.setJarByClass(TestSmsMR.class); job.setMapperClass(TSmsMap.class); job.setReducerClass(TSmsReduce.class); // job.setNumReduceTasks(4); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); // FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); if (job.waitForCompletion(true)) { System.out.println("The preprocess mapreduce has finished!"); } } //main函数测试都好着,为什么就不能并行呢 public static void main(String[] args) throws Exception { Long startTime = System.currentTimeMillis(); String srcPath = "campusSms"; String dstPath = "campusSmsLabelOut"; preExectue(srcPath,dstPath); Long runTime = System.currentTimeMillis() - startTime; System.out.println("run time: " + runTime); } } 还是觉得问题出在这个函数上: public static void preExectue(String inputPath, String outputPath) 运行前提是: 环境已搭建好,而且测试主机分机都能正常通信,且主机从机都起来了。希望解答时,能多考虑些编程方面的问题。 该程序运行起来,就是在主机上跑,MapReduce机制到分机并没有得到任务,运行的数据250M,按照hadoop默认块64M来算,也应该分为4块,3台分机应得到执行任务的,可是程序就是不能并行。 请有经验的hadoop学习实践者给予指导。 在集群上运行Pi值计算,都能看到并行。就是自己写的程序,不行!......
MapReduce Shuffle中的溢写阶段疑问
MapReduce Shuffle中溢写到本地磁盘的操作,它会设置一个阈值,默认是80%,想问下是不是最终不管有没有达到这个设定的阈值它都会触发溢写操作?比如运行一个wordcount,测试的文件数据就几行单词,这都没达到100MB内存中的80%,最终程序仍然是运行完成的,在这边有些疑惑
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
前端 | 2. 正则
转载请注明以下: 本文转自清自以敬的博客:https://blog.csdn.net/qq_45791147 文章目录1.转义2.正则表达式初步2.1.匹配字符2.1.1.组成元素2.1.2.基础正则的设计 1.转义 转义的作用: 当某个字符在表达式中具有特殊含义,例如字符串引号中出现了引号,为了可以使用这些字符本身,而不是使用其在表达式中的特殊含义,则需要通过转义符“\”来构建该字符转义...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
Docker 从入门到掉坑
Docker 介绍 简单的对docker进行介绍,可以把它理解为一个应用程序执行的容器。但是docker本身和虚拟机还是有较为明显的出入的。我大致归纳了一下,可以总结为以下几点: docker自身也有着很多的优点,关于它的优点,可以总结为以下几项: 安装docker 从 2017 年 3 月开始 docker 在原来的基础上分为两个分支版本: Docker CE 和 Doc...
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
Python 编程开发 实用经验和技巧
Python是一门很灵活的语言,也有很多实用的方法,有时候实现一个功能可以用多种方法实现,我这里总结了一些常用的方法和技巧,包括小数保留指定位小数、判断变量的数据类型、类方法@classmethod、制表符中文对齐、遍历字典、datetime.timedelta的使用等,会持续更新......
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址
第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是就在地府总经办群中发了项目需求。 话说还是中国电信的信号好,地府都是满格,哈哈!!! 经常会有外行朋友问:看某网站做的不错,功能也简单,你帮忙做一下? 而这次,面对这样的需求,这个程序员...
网易云6亿用户音乐推荐算法
网易云音乐是音乐爱好者的集聚地,云音乐推荐系统致力于通过 AI 算法的落地,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。 本次分享重点介绍 AI 算法在音乐推荐中的应用实践,以及在算法落地过程中遇到的挑战和解决方案。 将从如下两个部分展开: AI算法在音乐推荐中的应用 音乐场景下的 AI 思考 从 2013 年 4 月正式上线至今,网易云音乐平台持续提供着:乐屏社区、UGC...
相关热词 c# 图片上传 c# gdi 占用内存 c#中遍历字典 c#控制台模拟dos c# 斜率 最小二乘法 c#进程延迟 c# mysql完整项目 c# grid 总行数 c# web浏览器插件 c# xml 生成xsd
立即提问