Map Reduce三级分类案例

打开 ZZ052-8-M2-T3-SUBT3 文件夹，文件夹中包含
sku_info.csv 文件。sku_info.csv 文件存储了电商互联网
平台上收集的商品数据，数据中有以下内容：
id：主键非空，bigint 类型，长度为 20
spu_id：spuId，varchar 类型，长度 20
price：价格，decimal 类型，长度 10
sku_name：商品名称，varchar 类型，长度 200
sku_desc：商品描述，varchar 类型，长度 2000
weight:重量，decimal 类型，长度 10
tm_id:品牌，bigint 类型，长度 20
category3_id:三级分类，bigint 类型，长度 20
sku_default_img:默认显示图片，varchar 类型，长度
200
编写 MapReduce 程序，实现以下功能：三级分类
category3_id 范围为[1,10],1 表示最低级别，10 表示最高
级别。本任务遍历 sku_info.csv 中数据，统计字段“三级
分类”级别为“10”最高级别的商品数量

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-05-20 19:18
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

【您想要解决的问题】：您提问的目的是要编写一个MapReduce程序，用于处理存储在sku_info.csv文件中的电商商品数据。具体来说，您需要实现的功能是统计在三级分类category3_id中级别为“10”的最高级别商品的数量。

【问题出现原因】：这个问题出现的原因是您需要对大规模的数据集进行处理，而MapReduce是一种适合于处理和生成大规模数据集的编程模型。由于sku_info.csv文件中的数据量可能很大，单机处理可能效率不高或存在性能瓶颈，因此需要使用MapReduce这样的分布式计算框架来提高处理速度和扩展性。

【问题解决方案】：为了解决这个问题，您需要编写一个MapReduce程序，该程序应该包含一个Map任务和一个Reduce任务。Map任务负责读取sku_info.csv文件中的每一行数据，检查category3_id字段是否为“10”，并将符合条件的数据传递给Reduce任务。Reduce任务则负责对所有Map任务传递过来的数据进行汇总，计算出最高级别商品的总数。

【提供代码】：以下是一个简单的MapReduce程序示例，用于解决您的问题。请注意，这只是一个示例，您可能需要根据实际环境和需求进行调整。

// Mapper类 public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private Text category = new Text(); private IntWritable one = new IntWritable(1); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { String[] parts = value.toString().split(","); if(parts.length > 7 && parts[7].equals("10")){ category.set(parts[7]); context.write(category, one); } } } // Reducer类 public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } // 主程序 public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); Job job = Job.getInstance(conf, "Count of high level products"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); }

【代码运行方式】：要运行上述代码，您需要以下环境和步骤：

Hadoop环境：确保您的系统已经安装并配置了Hadoop。
编译：使用Java编译器编译上述Java代码。
打包：将编译后的类文件打包成一个JAR文件。
运行：使用Hadoop命令行工具运行MapReduce作业，例如：
hadoop jar YourMapReduceJar.jar WordCount /input/path /output/path
其中YourMapReduceJar.jar是您的JAR文件名，/input/path是输入文件sku_info.csv的HDFS路径，/output/path是输出结果的HDFS路径。

【代码预期运行结果】：如果代码运行成功，您将在指定的输出路径下得到一个文件，其中包含了最高级别商品的数量。

【推荐相关链接】：

Hadoop官方文档
MapReduce编程模型
Hadoop入门教程
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【大数据开发】教程&案例&相关项目积分资源分享
2024-04-17 14:08

它通过Map和Reduce两个阶段来实现数据处理。 - **YARN（Yet Another Resource Negotiator）**：负责集群资源管理与任务调度，使得Hadoop可以运行更多的计算框架。 2. **Spark与Flink** - **Spark**：是一个通用、...
Hadoop企业级应用案例：揭秘知名公司的大数据架构
2025-09-28 02:34

AI量化价值投资入门到精通的博客本文以Hadoop生态为核心，结合阿里巴巴、腾讯、Netflix等知名企业的实际应用案例，深入解析Hadoop在企业级大数据场景中的架构设计、性能优化、安全管理与业务价值。内容覆盖Hadoop的理论基础（分而治之思想、主从...
Hadoop 在大数据领域的关键作用及应用案例
2025-05-07 15:56

光子AI的博客 Hadoop 作为 Apache 开源项目的核心，提供了一套分布式、高容错、可扩展的解决方案，成为企业级大数据处理的标配技术。本文聚焦 Hadoop 的技术架构、核心组件交互机制、典型应用场景及实战经验，帮助读者理解其在...
15、Map-Reduce编程框架在临床大数据分析中的应用：现状与未来趋势
2025-09-03 00:40

play7的博客首先介绍了大数据的概念、特性及其在医疗领域的应用案例，随后详细阐述了Hadoop和Map-Reduce框架的工作原理及在临床分析中的作用。文章还分析了Hadoop Map-Reduce框架在临床数据处理中所面临的挑战，包括数据质量、...
Hadoop在大数据领域的娱乐数据分析案例
2025-04-27 00:51

光子AI的博客 Hadoop核心组件在娱乐数据场景下的适配性分析基于MapReduce的典型娱乐数据分析任务实现从日志清洗到用户画像的完整工程案例娱乐行业特有的数据挑战（如高并发写入、多源异构）解决方案第2章解析Hadoop核心组件与娱乐...
大数据Hive--企业级调优
2024-04-19 19:20

泛黄的咖啡店的博客 1.6.2.2 优化案例 1.6.3 Join导致的数据倾斜 1.6.3.1 优化说明 1.6.3.2 优化案例 1.7 语法优化之任务并行度 1.7.1 优化说明 1.7.1.1 Map端并行度 1.7.1.2 Reduce端并行度 1.7.2 优化案例 1.8 HQL语法优化之小文件...
中型企业大数据面试纪录
2024-03-18 00:01

- **传统的三级架构:** 包括数据源、数据仓库层和数据报表层。 - **云数据仓库架构:** 利用云服务提供商提供的数据仓库解决方案，如AWS Redshift、Google BigQuery等。 **1.5 关系型数据库与非关系型数据库的区别...
Hadoop在大数据领域的旅游数据分析案例
2026-01-09 22:38

AI实战架构笔记的博客我是李阳，资深大数据工程师，专注于旅游、零售行业的...我的公众号“大数据启示录”会分享更多实战案例，欢迎关注。留言互动：你在旅游行业遇到过哪些“数据难题”？用Hadoop解决过吗？欢迎在评论区分享你的故事！
最经典的大数据案例解析（附代码）
2019-04-13 22:45

砥砺前行的疯子的博客 2.考虑reduce的计算复杂度？？？ 3.能不能多个reduce？？？ 4.如何避免数据倾斜？？？ 5.如何自定义数据类型？？？ ----记录特点每年每个月温度最高 2天 1天多条记录怎么处理？ ----进一步思考年月...
使用Hadoop进行数据分析涉及大数据的处理和分析一个简单的案例介绍如何使用Hadoop进行数据分析
2024-07-01 13:12

开发者需要编写Map和Reduce两个函数来实现对数据的处理。 - *Mapper*：将输入数据进行映射，按照某种规则对数据进行分类。 - *Reducer*：对Mapper输出的数据进行汇总和计算。 - **Apache Hive**：提供了类似于SQL...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月20日

Map Reduce三级分类案例

4条回答 默认 最新

问题事件

4条回答默认最新