MapReduce清洗数据，输出多个文件

测试数据：
067017    DA2821EA174C4CD6F4E0914C14E740BC    尊敬的周斌颉，您编号为14060800112的项目收款逾期，担保公司将对借款人进行催收，借款人将支付您一定的逾期罚息，详情请至陆金所网站查询。    2014-11-26
008080    B96D6244E733E1F97259927CF79B9B04    您的一笔借款已逾期！将每日产生罚息并影响您的信用记录，请您尽快还款。如您不再需要收到此类短信，请登录网站设置或致电400-090-6600    2014-11-26
420894    66AEE4A81D0DC3F7597CF14304DF8A37    马鹏云先生：您的借款第二次借款绝不逾期希望支持    第1期将于2014-12-03到期，为保证您的信誉良好，介时请及时还款，谢谢!    2014-11-26
067017    98717067FE78A6E71213A3F02969863C    尊敬的陈慧丽，您编号为14082000739的项目收款逾期，担保公司将对借款人进行催收，借款人将支付您一定的逾期罚息，详情请至陆金所网站查询。    2014-11-26
000000    4DCB184986008ADD3AD33E4860745FAA    [2111-9607-5482-7768]F 有效期2014-08-11到2014-10-31;项王故里成人票(停车场负一楼团队售票处报江苏南方旅行社验证取票，有问题联系唐13515299345）-成人票2张
000000    822D3A7BD4B44547D5E71C60D521D694    [2111-9211-4633-7607]U 有效期2014-10-17到2014-12-31;月亮河温泉度假酒店房-双人温泉/桑拿家庭套票1张
000000    4929EDF20844D65ECD4333FBA9D8FD7F    [2111-7081-7365-7431]G 有效期2014-12-15到2015-03-31;南京麦乐迪KTV-团圆桌餐698元/套（8-10人）VIP房（12-3）1张
000000    F64D4901A21600ED51BE0D49DF390F81    [2111-7381-8605-8288]Z 有效期2014-11-18到2015-09-30;顺景温泉酒店-行政豪华房（含2人温泉）1张
000000    822D3A7BD4B44547D5E71C60D521D694    [2111-7011-4144-0946]F 有效期2014-10-17到2014-12-31月亮河温泉度假酒店房-双人特惠房2张
000000    C4183B38CF4D0141BF23CA1D794B4093    [2111-9677-3783-8938]S 有效期2013-11-01到2015-06-30汽车博物馆-双成人套票2张
000000    BF67C952CDE878AA79D2F6683A464947    [2111-4021-6549-0044]M 有效期2014-10-08到2015-08-31北京青泉赢睿卡丁车-假日票（新）4张
000000    22FD17C8CA607FB179D7FE505748AA61    [2111-4079-9733-2324]F 有效期2015-05-01到2015-08-31大兴野生动物园-自驾区车票1张
使用MapReduce清洗数据，并根据不同的内容分别输出到多个文件
清洗规则：提取第一列，第二列，第三列中括号里面的内容
结果数据：
如果第三列包含逾期则输出到overdue.txt
067017    DA2821EA174C4CD6F4E0914C14E740BC
008080    B96D6244E733E1F97259927CF79B9B04
420894    66AEE4A81D0DC3F7597CF14304DF8A37
067017    98717067FE78A6E71213A3F02969863C
如果第三列包含房则输出到house.txt
000000    4DCB184986008ADD3AD33E4860745FAA
000000    822D3A7BD4B44547D5E71C60D521D694
000000    4929EDF20844D65ECD4333FBA9D8FD7F
000000    F64D4901A21600ED51BE0D49DF390F81
000000    822D3A7BD4B44547D5E71C60D521D694
如果第三列包含车则输出到car.txt
000000    4DCB184986008ADD3AD33E4860745FAA
000000    C4183B38CF4D0141BF23CA1D794B4093
000000    BF67C952CDE878AA79D2F6683A464947
000000    22FD17C8CA607FB179D7FE505748AA61

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-01-28 22:45
关注
http://www.aboutyun.com/thread-5657-1-1.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

MapReduce气象数据清洗[项目源码]
2025-11-16 09:46

本文所述的MapReduce气象数据清洗项目，是一个将MapReduce技术应用于气象数据分析和处理的实际案例。通过对气象数据进行清洗、合并、排序和格式转换等操作，可以有效地提高气象数据分析和处理的效率和准确性。同时，...
MapReduces大数据数据清洗电影数据
2024-10-23 15:35

实验内容与步骤中，首先介绍了在idea开发环境中引入依赖和插件，编写Java类如FilmBean、CleanReducer、CleanMapper和CleanDriver，然后通过Hadoop命令创建输入输出路径，上传数据文件并运行MapReduce任务，查看输出...
mapreduce项目数据清洗
2018-10-10 17:00

MapReduce通常与Hadoop生态系统一起使用，Hadoop提供了一个分布式文件系统（HDFS）来存储大数据，以及YARN资源管理器来协调计算任务。在这个项目中，数据可能存储在HDFS上，由YARN调度执行MapReduce作业。 5. **...
多个大数据学习模拟数据集地址
2019-04-26 14:33

"多个大数据学习模拟数据集地址"这个主题提供了丰富的资源，旨在帮助个人在不涉及实际业务敏感信息的情况下，进行数据处理、分析和挖掘的实践。这些模拟数据集通常涵盖了各种领域，如社会科学、商业、健康、地理等，...
基于 MapReduce 的大数据采集清洗处理及离线分析完整案例
2025-08-20 08:32

本案例通过深入浅出的方式，不仅展示了如何使用MapReduce进行大数据的采集、清洗、处理和离线分析，还提供了一个完整的实践指南。它不仅适用于大数据初学者，也对有经验的数据工程师和技术管理者具有参考价值。通过...
大数据离线处理数据项目（二）数据清洗 ETL 编写MapReduce程序实现数据清洗
2021-12-03 15:36

'一生所爱的博客数据清洗 ETL 编写MapReduce程序实现数据清洗简介：实现的功能：对采集到的日志数据进行清洗，过滤无效数据、静态资源方法：编写MapReduce进行处理涉及到的类： 1）实体类Bean 描述日志数据的各个字段：如...
基于Java语言的Hadoop、Birch聚类、冒泡排序与数据清洗相结合的MapReduce设计源码
2024-10-04 13:04

其核心组件MapReduce在数据处理中发挥着关键作用，能够将复杂任务分解为多个小任务，通过分布式计算来提高处理效率。Hadoop的MapReduce模型支持Java语言开发，这使得拥有广泛开发者基础的Java成为实现大数据应用的...
使用 MapReduce 进行高效数据清洗：从理论到实践
2025-04-02 15:42

麻芝汤圆的博客如果数据清洗任务可以拆分为多个独立的子任务，可以使用多个 MapReduce 作业并行执行，提高效率。因此，数据清洗是确保数据质量的第一步。：MapReduce 的编程模型相对复杂，对于简单的数据清洗任务，可能显得过于...
MapReduce将运算结果分类输出到多个文件
2019-11-13 20:30

大数据流浪法师的博客 MultipleOutputs是一个可以向不同文件输出内容的类。这里简单地记录它的用法。 package demo03; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop...
mapreduce综合应用案例 - 招聘数据清洗.zip
2024-06-16 20:32

数据清洗是数据分析过程中的重要步骤，它涉及到去除重复项、修正错误、填充缺失值以及标准化数据等多个环节。在大数据环境下，MapReduce提供了一种高效、可扩展的方式来处理这类任务。 MapReduce的工作原理可以分为...
没有解决我的问题, 去提问

MapReduce清洗数据，输出多个文件

1条回答 默认 最新

1条回答默认最新