mapReduce清除日志中字段长度比 11 小的日志记录

打开 ZZ052-7-M2-T3-SUBT2 文件夹，文件夹中包含
sku_info.csv 文件。sku_info.csv 文件存储了电商互联网
平台上收集的商品数据，数据中有以下内容：
id：主键非空，bigint 类型，长度为 20
spu_id：spuId，varchar 类型，长度 20
price：价格，decimal 类型，长度 10
sku_name：商品名称，varchar 类型，长度 200
sku_desc：商品描述，varchar 类型，长度 2000
weight:重量，decimal 类型，长度 10
tm_id:品牌，bigint 类型，长度 20
category3_id:三级分类，bigint 类型，长度 20
sku_default_img:默认显示图片，varchar 类型，长度
200
编写 MapReduce 程序，实现以下功能：清除日志中字
段长度比 11 小的日志记录，输出文件到 HDFS；在控制台按
顺序打印输出前 20 条数据

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-05-20 08:47

关注

引自免费微信小程序：皆我百晓生

为了实现这个MapReduce程序，你需要首先安装Hadoop并设置好环境变量。然后按照以下步骤操作：

创建Java项目
添加Hadoop依赖
编写Mapper类
编写Reducer类
编写Driver类
执行程序

以下是详细的步骤和代码示例。

步骤1：创建Java项目

创建一个新的Java Maven项目，并命名为logClearing.

步骤2：添加Hadoop依赖

在pom.xml文件中添加Hadoop的依赖。如果你使用的是Hadoop 3.x版本，可以使用以下依赖：

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.3.1</version>
    </dependency>
</dependencies>

步骤3：编写Mapper类

创建一个名为LogLengthMapper.java的文件，实现Mapper<LongWritable, Text, Text, IntWritable>接口。将输入的日志行分割成单词，计算每个单词的长度，只将长度大于等于11的单词输出。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LogLengthMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split("\\s+");
        for (String word : words) {
            if (word.length() >= 11) {
                this.word.set(word);
                context.write(this.word, one);
            }
        }
    }
}

步骤4：编写Reducer类

创建一个名为LogLengthReducer.java的文件，实现Reducer<Text, IntWritable, Text, IntWritable>接口。将相同单词的计数累加起来。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LogLengthReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

步骤5：编写Driver类

创建一个名为LogLengthDriver.java的文件，定义主入口点。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class LogLengthDriver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Log Length Clearer");
        job.setJarByClass(LogLengthDriver.class);
        job.setMapperClass(LogLengthMapper.class);
        job.setCombinerClass(LogLengthReducer.class);
        job.setReducerClass(LogLengthReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

步骤6：执行程序

在命令行中运行以下命令，替换input_path和output_path为实际路径：

mvn compile exec:exec -Dexec.mainClass="LogLengthDriver" -Dexec.args="<input_path> <output_path>"

这将会读取指定的输入目录（input_path），执行MapReduce任务，清理长度小于11的单词，并将结果保存到指定的输出目录（output_path）。

注意：此程序不会在控制台上打印前20条数据，因为MapReduce是分布式处理，数据在节点间传输，不支持直接在控制台查看中间结果。如果你想在控制台上查看结果，你可能需要修改Reducer类，在完成所有reduce操作后，手动写入控制台。但这样会破坏MapReduce的并行性和效率，仅适用于测试和调试目的。

编辑记录

报告相同问题？

关注问题

大数据知识，MapReduce 基础实战
2024-06-21 09:26

大数据知识，MapReduce 基础实战； 大数据知识，MapReduce 基础实战； 大数据知识，MapReduce 基础实战； 大数据知识，MapReduce 基础实战； 大数据知识，MapReduce 基础实战； 大数据知识，MapReduce 基础实战； ...
MapReduce 大数据 入门学习
2022-03-09 11:25

MapReduce技术广泛应用于大数据时代的数据分析任务，例如分析汇总某个大型零售商在全国的销售数据、查看某个搜索引擎的特定词条的访问日志等。 MapReduce的内部逻辑可以分为三个部分：Mapper、Reducer和Shuffler。...
大数据之Mapreduce
2021-06-09 20:06

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程...
大数据实验5实验报告：MapReduce 初级编程实践
2022-06-20 17:11

【MapReduce初级编程实践】是大数据处理中的一项基础任务，主要应用于大规模数据集的并行计算。在这个实验中，我们关注的是如何利用MapReduce来实现文件的合并与去重操作。MapReduce是一种分布式计算模型，由Google...
大数据Mapreduce实验
2023-06-07 18:34

大数据Mapreduce实验
大数据技术基础实验报告-MapReduce编程.doc
2021-08-21 08:55

MapReduce 是一种分布式计算模型，由Google提出，主要用于处理和分析海量数据。在这个实验报告中，我们将探讨如何在Eclipse环境中设置和使用MapReduce编程。首先，为了在Eclipse上编写和运行MapReduce程序，我们...
基于Hadoop的MapReduce网站日志大数据分析（含预处理MapReduce程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts）
2023-07-04 08:00

王小王-123的博客本项目首先将网站日志上传到HDFS分布式文件系统，然后使用MapReduce进行数据预处理。通过使用Hive进行大数据分析，我们能够对网站的PV、独立IP、用户注册数和跳出用户数等重要指标进行统计分析。最后，我们使用Sqoop...
【MapReduce电商日志文件分析（一）】
2024-06-05 21:29

demonGoth'boi的博客文章目录项目需求思路分析问题1 问题2 问题3 模块实现问题一 MapReduce电商日志文件分析（二） MapReduce电商日志文件分析（三）项目需求统计页面浏览量。统计各个省份的浏览量。日志的ETL操作。解析出：ip...
大数据mapreduce词频统计jar包(java语言)
2023-05-02 21:59

大数据mapreduce利用java实现词频统计功能的jar包
大数据&MapReduce基础培训.pptx
2023-11-28 10:30

大数据&MapReduce基础培训
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日

mapReduce清除日志中字 段长度比 11 小的日志记录

4条回答 默认 最新

问题事件

mapReduce清除日志中字段长度比 11 小的日志记录

4条回答默认最新