MapReduce清洗数据,输出多个文件

测试数据:
067017    DA2821EA174C4CD6F4E0914C14E740BC    尊敬的周斌颉,您编号为14060800112的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26    
008080    B96D6244E733E1F97259927CF79B9B04    您的一笔借款已逾期!将每日产生罚息并影响您的信用记录,请您尽快还款。如您不再需要收到此类短信,请登录网站设置或致电400-090-6600    2014-11-26
420894    66AEE4A81D0DC3F7597CF14304DF8A37    马鹏云先生:您的借款第二次借款绝不逾期希望支持    第1期将于2014-12-03到期,为保证您的信誉良好,介时请及时还款,谢谢!    2014-11-26
067017    98717067FE78A6E71213A3F02969863C    尊敬的陈慧丽,您编号为14082000739的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26
000000    4DCB184986008ADD3AD33E4860745FAA    [2111-9607-5482-7768]F 有效期2014-08-11到2014-10-31;项王故里成人票(停车场负一楼团队售票处报江苏南方旅行社验证取票,有问题联系唐13515299345)-成人票2张 
000000    822D3A7BD4B44547D5E71C60D521D694    [2111-9211-4633-7607]U 有效期2014-10-17到2014-12-31;月亮河温泉度假酒店房-双人温泉/桑拿家庭套票1张 
000000    4929EDF20844D65ECD4333FBA9D8FD7F    [2111-7081-7365-7431]G 有效期2014-12-15到2015-03-31;南京麦乐迪KTV-团圆桌餐698元/套(8-10人)VIP房(12-3)1张 
000000    F64D4901A21600ED51BE0D49DF390F81    [2111-7381-8605-8288]Z 有效期2014-11-18到2015-09-30;顺景温泉酒店-行政豪华房 (含2人温泉)1张 
000000    822D3A7BD4B44547D5E71C60D521D694    [2111-7011-4144-0946]F 有效期2014-10-17到2014-12-31月亮河温泉度假酒店房-双人特惠房2张
000000    C4183B38CF4D0141BF23CA1D794B4093    [2111-9677-3783-8938]S 有效期2013-11-01到2015-06-30汽车博物馆-双成人套票2张 
000000    BF67C952CDE878AA79D2F6683A464947    [2111-4021-6549-0044]M 有效期2014-10-08到2015-08-31北京青泉赢睿卡丁车-假日票(新)4张
000000    22FD17C8CA607FB179D7FE505748AA61    [2111-4079-9733-2324]F 有效期2015-05-01到2015-08-31大兴野生动物园-自驾区车票1张
使用MapReduce清洗数据,并根据不同的内容分别输出到多个文件
清洗规则:提取第一列,第二列,第三列中括号里面的内容
结果数据:
如果第三列包含逾期则输出到overdue.txt
067017    DA2821EA174C4CD6F4E0914C14E740BC   
008080    B96D6244E733E1F97259927CF79B9B04   
420894    66AEE4A81D0DC3F7597CF14304DF8A37   
067017    98717067FE78A6E71213A3F02969863C   
如果第三列包含房则输出到house.txt
000000    4DCB184986008ADD3AD33E4860745FAA   
000000    822D3A7BD4B44547D5E71C60D521D694     
000000    4929EDF20844D65ECD4333FBA9D8FD7F     
000000    F64D4901A21600ED51BE0D49DF390F81     
000000    822D3A7BD4B44547D5E71C60D521D694   
如果第三列包含车则输出到car.txt
000000    4DCB184986008ADD3AD33E4860745FAA   
000000    C4183B38CF4D0141BF23CA1D794B4093     
000000    BF67C952CDE878AA79D2F6683A464947   
000000    22FD17C8CA607FB179D7FE505748AA61   

1个回答

qq_21194023
寂寞不孤单 姐姐,原谅我新手理解不够,能直接上代码吗?或者完整的类似例子也可已啊
3 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
用MapReduce清洗数据
用MapReduce清洗数据 接触Hadoop平台大半年了,还从来没写过一次MapReduce的业务代码,刚好赶上清洗数据的业务需求,写了一个简单的MapReduce类,用来清洗数据,顺手把一个简单的MapReduce工作流的代码框架记录下来 第一个MapReduce程序不是流行的WordCount 类的整个框架如下:public class DataCleaner extend
MapReduce清洗数据乱码问题
/*This class stores text using standard UTF8 encoding.*/ public class Text extends BinaryComparable implements WritableComparable<BinaryComparable> { private static ThreadLocal<CharsetEncoder&am
MapReduce输出结果到多个文件
利用MultipleOutputs可以方便的实现将结果按自己的要求输出到不同的文件,方法简单, 1,直接在map或reduce中加入类似如下的代码, 3,用mos.write替换以前的context.write 3,在main中利用MultipleOutputs.addNamedOutput(job, "shortkey", TextOutputFormat.class, Text.class, IntWritable.class);添加输出路径。
在MapReduce中利用MultipleOutputs输出多个文件
最近在学习Hadoop,由于用到要将reduce结果输出到多个文档中,所以研究了一下MultipleOutputs用法,在这里总结一下。 首先我用到的例子是将原始数据按国家分类成不同的文档,数据是从网上拷贝下来的,如下:18.217.167.70 United States 206.96.54.107 United States 196.109.151.139 Mauritius 174.
MapReduce使用MultipleOutputs分组输出多个文件
package com.oracle.multiple; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hado...
MapReduce清洗的日志数据集
该数据集为本博主 https://blog.csdn.net/weixin_38201936/article/details/88533223 使用MapReduce对日志进行清洗的数据集,有100 万条数据
通过MAPREDUCE 把收集数据进行清洗
通过此案例可以学习大数据整体开发流程,课程是围绕一个大数据整理流程而做的教学课程,让大家明白大数据不同技术的相互协调,从收集数据,过滤数据,数据分析,数据展示,调度的使用而开发的课程,而且怎么从hadoop,hive应用快速的过度到spark上面而做的整套流程。学完此课程可以企业流程做一个整体的认识。n配套资料-答疑专属答疑群n购买课程后加入qq群 951117762 (备注订单号后四位)
MapReduce之多文件输出
package com.uplooking.bigdata.mr.format.out; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.
mapreduce输出文件的重命名
之前看过,但用到的时候又忘记了……做下备注,以防忘记 重写MultipleOutputFormat的String generateFileNameForKeyValue(K key, V value, Configuration conf)方法。...
清洗数据
<p>rn <br />rn</p>rn<p>rn <p>rn 20周年限定一卡通!<span style="color:#337FE5;">可学Java全部课程</span>,仅售799元(原价7016元),<span style="color:#E53333;">还送漫威正版授权机械键盘+CSDN 20周年限量版T恤+智能编程助手!</span>rn </p>rn <p>rn 点此链接购买:rn </p>rn <table>rn <tbody>rn <tr>rn <td>rn <span style="color:#337FE5;"><a href="https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy" target="_blank">https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy</a><br />rn</span>rn </td>rn </tr>rn </tbody>rn </table>rn</p>rn<span>&nbsp;</span> rn<p>rn <br />rn</p>rn<p>rn 本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。rn</p>
MapReduce 如何输出多个文件:MultipleOutputs 运用可行
使用的背景和目的比较简单,如果日后有适合的场景,我会把它写下来。目前是一名新手,这里将代码一一贴出来~ 1. 主程序 PartitionByStationUsingMultipleOutputs.java package practice.hadoop.simple_examples; import java.io.IOException; import org.apache.hadoo
MapReduce输出多个指定的文件MultipleOutputs使用讲解
以Apache Hadoop 2.5.0为准,进行深入浅出的讲解各个模块的功能、架构、使用,主要四个方面内容:rn模块一:Hadoop 2.x入门rn模块二:分布式文件系统HDFSrn模块三:分布式资源管理框架YARNrn模块四:分布式计算框架MapReduce
关于MapReduce中多个reduce输出的问题
每个reduce task都会向HDFS写入自己的输出文件吗?rn这些输出文件会进行合并吗?rn求指教,谢谢
输出多个数据的问题
$sql = "SELECT ID_Num ,dzid, xl , scc from DZ_Model where $table.ID_Num IN (1,2,3)";rn$mssql->query($sql);rn$xhyh = $mssql->fetch();rn这样只能输出一个值,我想把查到的都输出怎么弄,望指点下
webpack输出多个文件
webpack输出多个文件
Log4j 输出多个文件
http://wangjc-opal.iteye.com/blog/309924 log4j.logger.mylog=ERROR,log_err log4j.appender.log_err=org.apache.log4j.FileAppender log4j.appender.log_err.File=C:/log4j/errFile.log log4j.appender.l...
Log4j输出多个文件
[code=&quot;java&quot;] log4j.rootLogger=warn,stdout, file log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appender.stdout.layout.Con...
数据清洗(三)----- 清洗PDF文件中的数据
       可移植文档格式(PDF)存储的文件相对较复杂,因为它是以二进制的形式存储的,格式固定,不可修改。使用起来很方便,但是里面的信息相对较难提取,下面将介绍一些方式提取FDF中的信息。 1. 最简单的方式----复制       有pdf文件里面的内容可以复制出来再整理,这对于需要从PDF中拿少量信息来说十分便利;但是数据比较多时这样做的效率低下,而且有的PDF根本无法复制,因此这种方...
MapReduce中控制输出文件命名 & 单个reducer写出多个输出文件——MutipleOutputs
在MR job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径进行设置。 在输出目录中,框架自己会自动对输出文件进行组织和命名: 一般情况下,Hadoop中每个Reducer对一个相同key的value做归并后,产生一个输出文件,并且文件以part-r-00000,part-r-00001的方式命名; 但是如果需要人为控制Reducer端输出...
数据探索与清洗
#数据质量分析 #数据特征分析(分布、对比、周期性、相关性、常见统计量) #数据清洗 ‘’’ 1.缺失值处理(describe和len直接发现,通过0数据发现,比如淘宝商品价格为0) 处理方式:删除、插补、不处理 均值插补、中位数插补、众数插补、固定值插补(如固定的苹果价格)、最近数据插补、 回归插补、拉格朗日插值、牛顿插值、分段插值。 2.异常值处理(通过散点图发现) 处理方式:视为缺失值、删除...
谷粒影音清洗数据
<p>rn <br />rn</p>rn<p>rn <p>rn 20周年限定一卡通!<span style="color:#337FE5;">可学Java全部课程</span>,仅售799元(原价7016元),<span style="color:#E53333;">还送漫威正版授权机械键盘+CSDN 20周年限量版T恤+智能编程助手!</span>rn </p>rn <p>rn 点此链接购买:rn </p>rn <table>rn <tbody>rn <tr>rn <td>rn <span style="color:#337FE5;"><a href="https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy" target="_blank">https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy</a><br />rn</span>rn </td>rn </tr>rn </tbody>rn </table>rn</p>rn<span>&nbsp;</span> rn<p>rn <br />rn</p>rn<p>rn 本阶段详细介绍了大数据所涉及到的Linux、shell、Hadoop、zookeeper、HadoopHA、Hive、Flume、Kafka、Hbase、Sqoop、Oozie等技术的概念、安装配置、架构原理、数据类型定义、数据操作、存储集群等重点知识点。rn</p>
数据质量管理--数据抽取和清洗
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司
请问如何清洗数据
我们在做一个程序,清洗文件中不规范的数据,现在我们不知道该怎么下手,请问如何把文件中的数据赋给结构体,然后再从结构体中读出数据呢?
pandas 清洗Excel数据
使用pandas数据清洗 目录 使用pandas数据清洗 数据表中的重复值 duplicated() drop_duplicated() 数据表中的空值/缺失值 isnull()&amp;amp;notnull() dropna() fillna() 数据间的空格 查看数据中的空格 去除数据中的空格 大小写转换 数据中的异常和极端值 replace()...
使用spyder+pandas清洗数据
环境是windows+anaconda。anaconda自带的spyder虽然功能强大,但是感觉稳定性不好,用pandas读一个表格都会失去响应。一般失去响应以后结束任务->尝试还原,都能回到正常。再读文件就不会出问题了,不知道是什么原因。用 import sys reload(sys) sys.setdefaultencoding('utf8') 设置了utf8,但是偶尔中文还是会出现乱
清洗网页数据
字符集和编码规则的背景知识 ASCII American Standard Code for Information Interchange美国标准信息交换码 只能表示128个字符 这个大家都是很熟悉的,从32是空格,然后是一堆符号,然后是48~57表示0~9,65~90是A~Z,97~122是a~z。 就是很少,也只有英文字母 Windows:ANSI 然后发展到了ANSI HT...
机器学习 数据的采集和清洗
本人找到了一条路(不知道对错的路),采集训练的 数据和清理数据。 第一步  采集           涉及到如何利用爬虫采集网页csv文件            数据是在UCI 上的  UCI官网如下http://archive.ics.uci.edu/ml/index.php  。就拿里面最热门的Iris数据来说。进入数据的下载页http://archive.ics.uci.edu/ml/...
清洗数据,定时器
生活中无论有什么闪失,统统是自己的错,与人无尤,从错处学习改过,精益求精,直至不犯同一错误,从不把过失推诿到他人肩膀上去,免得失去学乖的机会。——《阿修罗》 ...
python 清洗数据
1、导入数据 import pandas as pd import os import numpy as np os.chdir(r&quot;E:\Python_learning\data_science\train_0529\5Preprocessing&quot;) camp = pd.read_csv('teleco_camp_orig.csv') camp.head() Out[1]: ...
pandas做数据的清洗
转换之后的经纬度的数据出现很多的问题,重复,特殊值,,,所以我就是做了一个简单的清洗使用 Python里面的pandas。 #coding:utf8 import pandas as pd import numpy as np # import csv df = pd.read_csv(r'D:\MobileFile\fangjia2.csv', encoding='gbk')#读取房价
spark清洗离线数据
最近花了半个月时间研究了一哈scala 感觉可以做的东西还是蛮多了。目前工作清洗40多G的数据很费劲(采用oracle做很费事),所有研究了spark来清洗离线数据。 废话不多说开始程序设计: 首先我想到的是输入 这里采用HDFS文件。假设我们将oracle的数据采用json格式的形式并且采用urldecode方法转换文本(因为一些特殊字符常常会导致我们的json文件读取异常,所有我这里采用转
特征工程&&清洗数据
特征工程 将原始数据映射到特征 我们在进行机器学习的时候,采用的数据样本往往是矢量(特征矢量),而我们的原始数据并不是以矢量的形式呈现给我们的,这是便需要将数据映射到特征 整数和浮点数映射 直接映射便ok(虽然机器学习是根据浮点值进行的训练,但是不需要将整数6转换为6.0,这个过程是默认的) 字符串映射 好多时候,有的特征是字符串,比...
map清洗数据出错
数据格式:0.0.0.0 0.255.255.255 湖北省rnrnwhile(tokenizer.hasMoreTokens())rn String startip=tokenizer.nextToken();rn String endip=tokenizer.nextToken();rn String country=tokenizer.nextToken().substring(0,4);rn context.write(new Text(startip),new Text());rn rnrn出错的地方在第二个nextToken(),但是我以前用的时候很正确,这次使用时发现在第一次nextToken()数据就已经分离出来了,很奇怪,就大神解答
数据简单的清洗处理
有时文件数据较大时,csv转excel会发生数据丢失,这时候可以利用python对数据进行简单的校验处理 #!/usr/bin/env python ''' 文件类型 province,city,district,year,month,day,carrier, in_num,out_num,dwell_num 河北省,秦皇岛市,海港区,20180816,3289.0-1132.0-1167....
关于爬下来数据的清洗
爬下来的数据如下图(用python scrapy爬取到mysql)rn![图片说明](https://img-ask.csdn.net/upload/201902/19/1550546259_117744.jpg)rn rn现在需要对material具体提取其中的食材,修饰词不要。并且去menu形成联系,构成如下图csv关系文件以便导入neo4jrn rn![图片说明](https://img-ask.csdn.net/upload/201902/19/1550547307_490930.jpg)rnrn请问如何批量清洗数据?
使用itemload清洗数据
a.在items.py里面添加相应的loader类 import scrapy from scrapy.loader import ItemLoader #导入预处理器 from scrapy.loader.processors import MapCompose,TakeFirst def complete_url(origin_url): #完整的url,把这个url映射到指定的字段当中url...
转移,清洗,同步数据
最近看了看公司的导入,清洗,同步数据。想自己也实现下 首先用SqlBulkCopy批量导入,然后用Partition by对要删除的数据进行分组,然后删除ID>1的数据。同步数据就是对源数据进行查询,然后批量更新目标数据。 我用MVC实现了下,代码实现如下: 前台代码 @{ Layout = null; } "http://www.w3.org/1999/xhtml">
linux 清洗文件
1、去除文件fileName1中字符串的所有空格,并将去除掉空格的数据放入fileName2文件中 sed s/[[:space:]]//g fileName1 &amp;gt; fileName2   2、去除文本中的空行 grep -v &quot;^$&quot; fileName   3、统计文件中文本行数 awk 'END{print NR}' fileName   3、对文件中的内容进行去重 ...
MapReduce — 数据分类输出和小文件合并
MapReduce 典型编程场景 2目录1、自定义 OutputFormat--数据分类输出 ........................................................................... 1    1.1、需求.....................................................................
MapReduce编程场景之数据分类输出
MapReduce编程场景之数据分类输出 (一)需求 现有一些原始日志需要做增强解析处理,流程: 1、 从原始日志文件中读取数据 2、 根据业务获取业务数据库的数据 3、 根据某个连接条件获取相应的连接结果 (二)分析 程序的关键点是要在一个 MapReduce 程序中根据数据的不同输出两类结果到不同目录,这 类灵活的输出需求可以通过自定义 OutputFormat 来实现 (三)实现 实现要点:...
相关热词 c# login 居中 c# 考试软件 c# 自然语言分析 c# 分段读取文件 c# 泛型反射 c#打断点 c# 时间转多少秒 c# 线程函数加参数 c# modbus 读取 c#查询集合表