mapreduce输出文件如何使用欧元符号€ ascii码(0x80) 作为字段分割符号

已重写了TextOutputFormat设置输出文件格式编码为GBK。

直接使用€符号作为分割符的话,在linux中使用od -c命令查看文件€符号会显示成252,而需求是要求为200。

之前没接触过字符编码这块。所以很疑惑。如果在sqlload导出数据使直接用0x80
作为分割符号,倒是能达到需要的效果。不知道各位大神有没有明白需求?

这是输出文件在windows中的显示效果
1€LX_100001€打电话€基本业务功能

在liunux中需要实现使用od -c file命令查看文件会让€符号显示成 200
hadoop@xxxxxx:~$ head test1.dat |od -c
0000000 1 200 L X _ 1 0 0 0 0 1 200 264 362 265 347
0000020 273 260 200 273 371 261 276 322 265 316 361 271 246 304 334 \r
0000040 \n

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
MapReduce清洗文件输出多个文件

测试数据: 067017    DA2821EA174C4CD6F4E0914C14E740BC    尊敬的周斌颉,您编号为14060800112的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26     008080    B96D6244E733E1F97259927CF79B9B04    您的一笔借款已逾期!将每日产生罚息并影响您的信用记录,请您尽快还款。如您不再需要收到此类短信,请登录网站设置或致电400-090-6600    2014-11-26 420894    66AEE4A81D0DC3F7597CF14304DF8A37    马鹏云先生:您的借款第二次借款绝不逾期希望支持    第1期将于2014-12-03到期,为保证您的信誉良好,介时请及时还款,谢谢!    2014-11-26 067017    98717067FE78A6E71213A3F02969863C    尊敬的陈慧丽,您编号为14082000739的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26 000000    4DCB184986008ADD3AD33E4860745FAA    [2111-9607-5482-7768]F 有效期2014-08-11到2014-10-31;项王故里成人票(停车场负一楼团队售票处报江苏南方旅行社验证取票,有问题联系唐13515299345)-成人票2张  000000    822D3A7BD4B44547D5E71C60D521D694    [2111-9211-4633-7607]U 有效期2014-10-17到2014-12-31;月亮河温泉度假酒店房-双人温泉/桑拿家庭套票1张  000000    4929EDF20844D65ECD4333FBA9D8FD7F    [2111-7081-7365-7431]G 有效期2014-12-15到2015-03-31;南京麦乐迪KTV-团圆桌餐698元/套(8-10人)VIP房(12-3)1张  000000    F64D4901A21600ED51BE0D49DF390F81    [2111-7381-8605-8288]Z 有效期2014-11-18到2015-09-30;顺景温泉酒店-行政豪华房 (含2人温泉)1张  000000    822D3A7BD4B44547D5E71C60D521D694    [2111-7011-4144-0946]F 有效期2014-10-17到2014-12-31月亮河温泉度假酒店房-双人特惠房2张 000000    C4183B38CF4D0141BF23CA1D794B4093    [2111-9677-3783-8938]S 有效期2013-11-01到2015-06-30汽车博物馆-双成人套票2张  000000    BF67C952CDE878AA79D2F6683A464947    [2111-4021-6549-0044]M 有效期2014-10-08到2015-08-31北京青泉赢睿卡丁车-假日票(新)4张 000000    22FD17C8CA607FB179D7FE505748AA61    [2111-4079-9733-2324]F 有效期2015-05-01到2015-08-31大兴野生动物园-自驾区车票1张 使用MapReduce清洗数据,并根据不同的内容分别输出到多个文件 清洗规则:提取第一列,第二列,第三列中括号里面的内容 结果数据: 如果第三列包含逾期则输出到overdue.txt 067017    DA2821EA174C4CD6F4E0914C14E740BC    008080    B96D6244E733E1F97259927CF79B9B04    420894    66AEE4A81D0DC3F7597CF14304DF8A37    067017    98717067FE78A6E71213A3F02969863C    如果第三列包含房则输出到house.txt 000000    4DCB184986008ADD3AD33E4860745FAA    000000    822D3A7BD4B44547D5E71C60D521D694      000000    4929EDF20844D65ECD4333FBA9D8FD7F      000000    F64D4901A21600ED51BE0D49DF390F81      000000    822D3A7BD4B44547D5E71C60D521D694    如果第三列包含车则输出到car.txt 000000    4DCB184986008ADD3AD33E4860745FAA    000000    C4183B38CF4D0141BF23CA1D794B4093      000000    BF67C952CDE878AA79D2F6683A464947    000000    22FD17C8CA607FB179D7FE505748AA61    原谅我新手理解力不够,能不能直接上代码?或者给个类似的完整的例子也行,使用MUltipleOutputs定义输出的多个文件时,怎么在Reduce阶段实现? 求大神指点

MapReduce 处理一个文件,多个输出结果

在同一个MapReduce中,处理一个同一个文件,输出多个不同的结果,有没有示例代码?

MapReduce清洗数据,输出多个文件

测试数据: 067017    DA2821EA174C4CD6F4E0914C14E740BC    尊敬的周斌颉,您编号为14060800112的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26     008080    B96D6244E733E1F97259927CF79B9B04    您的一笔借款已逾期!将每日产生罚息并影响您的信用记录,请您尽快还款。如您不再需要收到此类短信,请登录网站设置或致电400-090-6600    2014-11-26 420894    66AEE4A81D0DC3F7597CF14304DF8A37    马鹏云先生:您的借款第二次借款绝不逾期希望支持    第1期将于2014-12-03到期,为保证您的信誉良好,介时请及时还款,谢谢!    2014-11-26 067017    98717067FE78A6E71213A3F02969863C    尊敬的陈慧丽,您编号为14082000739的项目收款逾期,担保公司将对借款人进行催收,借款人将支付您一定的逾期罚息,详情请至陆金所网站查询。    2014-11-26 000000    4DCB184986008ADD3AD33E4860745FAA    [2111-9607-5482-7768]F 有效期2014-08-11到2014-10-31;项王故里成人票(停车场负一楼团队售票处报江苏南方旅行社验证取票,有问题联系唐13515299345)-成人票2张  000000    822D3A7BD4B44547D5E71C60D521D694    [2111-9211-4633-7607]U 有效期2014-10-17到2014-12-31;月亮河温泉度假酒店房-双人温泉/桑拿家庭套票1张  000000    4929EDF20844D65ECD4333FBA9D8FD7F    [2111-7081-7365-7431]G 有效期2014-12-15到2015-03-31;南京麦乐迪KTV-团圆桌餐698元/套(8-10人)VIP房(12-3)1张  000000    F64D4901A21600ED51BE0D49DF390F81    [2111-7381-8605-8288]Z 有效期2014-11-18到2015-09-30;顺景温泉酒店-行政豪华房 (含2人温泉)1张  000000    822D3A7BD4B44547D5E71C60D521D694    [2111-7011-4144-0946]F 有效期2014-10-17到2014-12-31月亮河温泉度假酒店房-双人特惠房2张 000000    C4183B38CF4D0141BF23CA1D794B4093    [2111-9677-3783-8938]S 有效期2013-11-01到2015-06-30汽车博物馆-双成人套票2张  000000    BF67C952CDE878AA79D2F6683A464947    [2111-4021-6549-0044]M 有效期2014-10-08到2015-08-31北京青泉赢睿卡丁车-假日票(新)4张 000000    22FD17C8CA607FB179D7FE505748AA61    [2111-4079-9733-2324]F 有效期2015-05-01到2015-08-31大兴野生动物园-自驾区车票1张 使用MapReduce清洗数据,并根据不同的内容分别输出到多个文件 清洗规则:提取第一列,第二列,第三列中括号里面的内容 结果数据: 如果第三列包含逾期则输出到overdue.txt 067017    DA2821EA174C4CD6F4E0914C14E740BC    008080    B96D6244E733E1F97259927CF79B9B04    420894    66AEE4A81D0DC3F7597CF14304DF8A37    067017    98717067FE78A6E71213A3F02969863C    如果第三列包含房则输出到house.txt 000000    4DCB184986008ADD3AD33E4860745FAA    000000    822D3A7BD4B44547D5E71C60D521D694      000000    4929EDF20844D65ECD4333FBA9D8FD7F      000000    F64D4901A21600ED51BE0D49DF390F81      000000    822D3A7BD4B44547D5E71C60D521D694    如果第三列包含车则输出到car.txt 000000    4DCB184986008ADD3AD33E4860745FAA    000000    C4183B38CF4D0141BF23CA1D794B4093      000000    BF67C952CDE878AA79D2F6683A464947    000000    22FD17C8CA607FB179D7FE505748AA61   

【新手】Hadoop MapReduce 执行中Map没有输出

hadoop - hadoop2.6 分布式 - 简单实例学习 - 统计某年的最高温度和按年份将温度从高到底排序 - 原明卓 - 博客频道 - CSDN.NET http://blog.csdn.net/lablenet/article/details/50608197#java 我按照这篇博客做的,运行结果见图。 ----------------------------------------------- 16/10/19 05:27:51 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 16/10/19 05:27:52 INFO input.FileInputFormat: Total input paths to process : 1 16/10/19 05:27:52 INFO util.NativeCodeLoader: Loaded the native-hadoop library 16/10/19 05:27:52 WARN snappy.LoadSnappy: Snappy native library not loaded 16/10/19 05:27:54 INFO mapred.JobClient: Running job: job_201610190234_0013 16/10/19 05:27:55 INFO mapred.JobClient: map 0% reduce 0% 16/10/19 05:28:24 INFO mapred.JobClient: map 100% reduce 0% 16/10/19 05:28:41 INFO mapred.JobClient: map 100% reduce 20% 16/10/19 05:28:42 INFO mapred.JobClient: map 100% reduce 40% 16/10/19 05:28:50 INFO mapred.JobClient: map 100% reduce 46% 16/10/19 05:28:51 INFO mapred.JobClient: map 100% reduce 60% 16/10/19 05:29:01 INFO mapred.JobClient: map 100% reduce 100% 16/10/19 05:29:01 INFO mapred.JobClient: Job complete: job_201610190234_0013 16/10/19 05:29:01 INFO mapred.JobClient: Counters: 28 16/10/19 05:29:01 INFO mapred.JobClient: Job Counters 16/10/19 05:29:01 INFO mapred.JobClient: Launched reduce tasks=6 16/10/19 05:29:01 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=26528 16/10/19 05:29:01 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 16/10/19 05:29:01 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 16/10/19 05:29:01 INFO mapred.JobClient: Launched map tasks=1 16/10/19 05:29:01 INFO mapred.JobClient: Data-local map tasks=1 16/10/19 05:29:01 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=107381 16/10/19 05:29:01 INFO mapred.JobClient: File Output Format Counters 16/10/19 05:29:01 INFO mapred.JobClient: Bytes Written=0 16/10/19 05:29:01 INFO mapred.JobClient: FileSystemCounters 16/10/19 05:29:01 INFO mapred.JobClient: FILE_BYTES_READ=30 16/10/19 05:29:01 INFO mapred.JobClient: HDFS_BYTES_READ=1393 16/10/19 05:29:01 INFO mapred.JobClient: FILE_BYTES_WRITTEN=354256 16/10/19 05:29:01 INFO mapred.JobClient: File Input Format Counters 16/10/19 05:29:01 INFO mapred.JobClient: Bytes Read=1283 16/10/19 05:29:01 INFO mapred.JobClient: Map-Reduce Framework 16/10/19 05:29:01 INFO mapred.JobClient: Map output materialized bytes=30 16/10/19 05:29:01 INFO mapred.JobClient: Map input records=46 16/10/19 05:29:01 INFO mapred.JobClient: Reduce shuffle bytes=30 16/10/19 05:29:01 INFO mapred.JobClient: Spilled Records=0 16/10/19 05:29:01 INFO mapred.JobClient: Map output bytes=0 16/10/19 05:29:01 INFO mapred.JobClient: CPU time spent (ms)=16910 16/10/19 05:29:01 INFO mapred.JobClient: Total committed heap usage (bytes)=195301376 16/10/19 05:29:01 INFO mapred.JobClient: Combine input records=0 16/10/19 05:29:01 INFO mapred.JobClient: SPLIT_RAW_BYTES=110 16/10/19 05:29:01 INFO mapred.JobClient: Reduce input records=0 16/10/19 05:29:01 INFO mapred.JobClient: Reduce input groups=0 16/10/19 05:29:01 INFO mapred.JobClient: Combine output records=0 16/10/19 05:29:01 INFO mapred.JobClient: Physical memory (bytes) snapshot=331567104 16/10/19 05:29:01 INFO mapred.JobClient: Reduce output records=0 16/10/19 05:29:01 INFO mapred.JobClient: Virtual memory (bytes) snapshot=2264113152 16/10/19 05:29:01 INFO mapred.JobClient: Map output records=0 ----------------------------------------------- yyyy-MM-dd HH:mm:ss\t温度 example:1995-10-10 10:10:10 6.54 这是数据源格式,我把 RunJob中的 int year=c.get(1); String hot=ss[1].substring(0,ss[1].lastIndexOf("°C")); KeyPari keyPari=new KeyPari(); keyPari.setYear(year); 中的°C改成了\n。 ----------------------------------------------- 代码和博文的一样,只删掉了MAP里面的IF判断和修改了输入输出路径。求前辈们指教一下为什么会这样,深表感激。

MapReduce实现文件查询

不用HDFS提供的FileSystem实现,用MapReduce机制实现文件查询,用户给定相应的字段,通过这些字段查询所在的文件。

mapreduce输入为大量nc文件,输出为单个csv文件,如何设置

遍历HDFS中的大量NC文件,mapreduce处理后输出到一个csv文件中,如何操作?

MapReduce清洗数据文件

求一数据清洗大神,会MapReduce的帮忙解决一程序。酬劳私聊,随时联系。

运行mapreduce程序 没有报错 但是map没有输出结果?

用的这个代码:https://blog.csdn.net/daihanglai7622/article/details/84760611 本地运行此程序是正确的 有输出结果 但是 放到集群上运行 输出结果为空 查看日志 应该是 map就出错了 ![图片说明](https://img-ask.csdn.net/upload/201911/20/1574218622_84460.png) 本地上能运行 逻辑应该是没问题的 那应该是哪里出了问题? 新手求教 那个啥~我没有c币哎 好像不能悬赏…

mapreduce想用map函数提取几十g文件包含某关键字的行,输出

用默认的textinputformat,但是每次都报错string index out of range 5。 string line = value.tostring(); line.substring(0,1); … 请问是什么原因?

Eclipse上运行MapReduce程序时,win10系统用户名中间有空格导致tmp文件生成&读取错误

报错如下: ``` SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found binding in [jar:file:/D:/Java/Dev/Maven/.m2/repository/org/apache/logging/log4j/log4j-slf4j-impl/2.10.0/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/D:/Java/Dev/Maven/.m2/repository/org/slf4j/slf4j-simple/1.6.6/slf4j-simple-1.6.6.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: Found binding in [jar:file:/D:/Java/Dev/Maven/.m2/repository/org/slf4j/slf4j-log4j12/1.7.25/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class] SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation. SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory] 2019-09-05 10:27:02,488 WARN [main] impl.MetricsConfig (MetricsConfig.java:134) - Cannot locate configuration: tried hadoop-metrics2-jobtracker.properties,hadoop-metrics2.properties 2019-09-05 10:27:04,715 WARN [main] mapreduce.JobResourceUploader (JobResourceUploader.java:147) - Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this. 2019-09-05 10:27:04,743 WARN [main] mapreduce.JobResourceUploader (JobResourceUploader.java:480) - No job jar file set. User classes may not be found. See Job or Job#setJar(String). 2019-09-05 10:27:10,228 WARN [pool-8-thread-1] impl.MetricsSystemImpl (MetricsSystemImpl.java:151) - JobTracker metrics system already initialized! 2019-09-05 10:27:10,326 WARN [Thread-6] mapred.LocalJobRunner$Job (LocalJobRunner.java:590) - job_local64686135_0001 java.lang.Exception: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1 at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:492) ~[hadoop-mapreduce-client-common-3.1.2.jar:?] at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:559) [hadoop-mapreduce-client-common-3.1.2.jar:?] Caused by: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in localfetcher#1 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:377) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapred.LocalJobRunner$Job$ReduceTaskRunnable.run(LocalJobRunner.java:347) ~[hadoop-mapreduce-client-common-3.1.2.jar:?] at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) ~[?:1.8.0_221] at java.util.concurrent.FutureTask.run(FutureTask.java:266) ~[?:1.8.0_221] at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) ~[?:1.8.0_221] at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) ~[?:1.8.0_221] at java.lang.Thread.run(Thread.java:748) ~[?:1.8.0_221] Caused by: java.io.FileNotFoundException: File D:/tmp/hadoop-William%20Scott/mapred/local/localRunner/icss/jobcache/job_local64686135_0001/attempt_local64686135_0001_m_000000_0/output/file.out.index does not exist at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:641) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:930) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:631) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.fs.RawLocalFileSystem.open(RawLocalFileSystem.java:211) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:899) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.io.SecureIOUtils.openFSDataInputStream(SecureIOUtils.java:152) ~[hadoop-common-3.1.2.jar:?] at org.apache.hadoop.mapred.SpillRecord.<init>(SpillRecord.java:71) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapred.SpillRecord.<init>(SpillRecord.java:62) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapred.SpillRecord.<init>(SpillRecord.java:57) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapreduce.task.reduce.LocalFetcher.copyMapOutput(LocalFetcher.java:125) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapreduce.task.reduce.LocalFetcher.doCopy(LocalFetcher.java:103) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] at org.apache.hadoop.mapreduce.task.reduce.LocalFetcher.run(LocalFetcher.java:86) ~[hadoop-mapreduce-client-core-3.1.2.jar:?] ``` 目前的情况是win10是用微软账号的登录的,姓名之间会自动生成一个空格,不是太方便更改账户。Hadoop运行环境是放在D盘的,但不是根目录。 请问有没有办法让本地的tmp文件换个地方生成,或者更改hadoop-William%20Scott文件夹的名字。 谢谢。

mapreduce,java处理操作文件

A文件 1 q*a*z 2 w*s*x B文件 1 q 1 a 1 z 2 w 2 s 2 x 利用java代码怎么把A文件转变成B文件

MapReduce处理数据文件

求一MapReduce大神,帮忙改一程序,润笔费私下交流。有意者私下联系。

mapreduce的reduce个数设置无效,始终只有一个reduce任务,输出的文件也只有一个

job.setNumReduceTasks(2); 这样设置reduce个数无效,调试发现始终只有一个reduce任务,输出文件也就只有一个part-r-00000,如果加一句System.out.println(job.getNumReduceTasks());会发现打印出来的“NumReduceTasks”的确是2,但实际运行结果始终只有一个。 如果不在eclipse中运行,生成jar包运行也是一样。 网上有人说是伪分布模式或者单机模式就会这样,但我不是这种模式,我用虚拟机建了集群的。 请问这是怎么回事?

hadoop MapReduce 路径输入

MapReduce程序中要处理的文件在一个文件夹及它的子文件夹中,用什么方法可以处理这种情况,让所有的文件都能被处理

mapreduce的value值排序!

假如同一个游客有多个逗留时间,现在想计算该游客相邻时间两个时间的间隔,需要先对该游客不同的逗留时间进行排序,求解!

Hadoop运行WordCount程序有输入,不生成输出的文件

![图片说明](https://img-ask.csdn.net/upload/201812/21/1545407846_986988.jpg) 代码如下: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.util.GenericOptionsParser; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; public class WordCountMapReduce { public static void main(String[] args) throws Exception{ Configuration configuration = new Configuration(); String[] otherArgs = (new GenericOptionsParser(configuration, args)).getRemainingArgs(); if (otherArgs.length < 2){ System.out.println("Usage:wordcount<in>[<in>···]<out>"); System.exit(2); } */ /** * 设置环境参数 *//* Job job = Job.getInstance(configuration, "wordcount"); */ /** * 设置整个程序的类名 *//* job.setJarByClass(WordCountMapReduce.class); */ /** * 添加Mapper类 *//* job.setMapperClass(WordCountMapReduce.WordCountMapper.class); */ /** * ? *//* //job.setCombinerClass(WordCountMapReduce.WordCountReducer.class); */ /** * 添加Reducer类 *//* job.setReducerClass(WordCountMapReduce.WordCountReducer.class); */ /** * 设置输出类型 *//* job.setOutputKeyClass(Text.class); */ /** * 设置输出类型 *//* job.setOutputValueClass(IntWritable.class); for (int i = 0;i < otherArgs.length - 1;++i){ */ /** * 设置输入文件 *//* FileInputFormat.addInputPath(job, new Path(otherArgs[i])); } */ /** * 设置输出文件 *//* FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1])); System.exit(job.waitForCompletion(true)?0:1); } //map程序 public static class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> { */ /* * map方法是提供给map task进程来调用的,map task进程是每读取一行文本来调用一次我们自定义的map方法 * map task在调用map方法时,传递的参数: * 一行的起始偏移量LongWritable作为key * 一行的文本内容Text作为value *//* private static final IntWritable one = new IntWritable(1); private Text word = new Text(); public WordCountMapper() { } @Override protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException { StringTokenizer stringTokenizer = new StringTokenizer(value.toString()); while (stringTokenizer.hasMoreTokens()) { this.word.set(stringTokenizer.nextToken()); context.write(this.word, one); } } } //reduce程序 */ /* * KEYIN:对应mapper阶段输出的key类型 * VALUEIN:对应mapper阶段输出的value类型 * KEYOUT:reduce处理完之后输出的结果kv对中key的类型 * VALUEOUT:reduce处理完之后输出的结果kv对中value的类型 *//* public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> { */ /* * reduce方法提供给reduce task进程来调用 * * reduce task会将shuffle阶段分发过来的大量kv数据对进行聚合,聚合的机制是相同key的kv对聚合为一组 * 然后reduce task对每一组聚合kv调用一次我们自定义的reduce方法 * 比如:<hello,1><hello,1><hello,1><tom,1><tom,1><tom,1> * hello组会调用一次reduce方法进行处理,tom组也会调用一次reduce方法进行处理 * 调用时传递的参数: * key:一组kv中的key * values:一组kv中所有value的迭代器 *//* private IntWritable intWritable = new IntWritable(); public WordCountReducer(){ } public void intWritable(Text key, Iterable<IntWritable>values, Reducer<Text, IntWritable, Text, IntWritable>.Context context)throws IOException, InterruptedException{ int sum = 0; IntWritable val; for (Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()){ val = (IntWritable)i$.next(); } this.intWritable.set(sum); context.write(key, this.intWritable); } } }

hadoop mapreduce 统计所有的key-value中value为空的数目

遇到一个问题,望大家有空可以帮忙看看,小弟感激不尽! 现在在做信令解析,有一条信令:[2016-04-02 09:58:09,724] len:78;type:1002;msc:0E1F;bsc:3F17;time:2016-04-01 16:48:46.494;lac:13883;ci:8713;imsi:460004544938252;msisdn:13994482976;callType:0;disLen:11;disMsisdn:13503531697;remark:0; map0: 输入:一条信令(上面那一条) 通过解析,得到一个Object 输出:key:imsi value:{imsi:460004544938252,msisdn:13994482976} reduce0: 输入:key:imsi value:List<> {imsi:460004544938252,msisdn:''},{imsi:460004544938252,msisdn:13994482976},{imsi:460004544938252,msisdn:''} 在这里我想统计一下: 1、所有的msisdn为空的个数 2、imsi对应的msisdn为空的个数(List里的msisdn全为空计1) 现在问题是:要把统计的值(一行:日期 | 呼叫总量 | IMSI未解析总呼叫次数 | 占比1 | 总IMSI | 未解析总IMSI数 | 占比2)写到文件中,怎么判断我读的是最后一条信令呢?如果不行的话,把这个reduce的结果传给第二个mapreduce统计怎么实现呢? 希望有空的朋友多多指点!谢谢

mapreduce中转化数组格式出错误

public int[] StringToInt(String[] arrs){ int[] ints = new int[arrs.length]; for(int i=0;i<arrs.length;i++){ ints[i] = Integer.parseInt(arrs[i]); } return ints; } public void map(Object key, Text value, Context context) throws IOException, InterruptedException { //StringTokenizer itr = new StringTokenizer(value.toString()); String[] s=value.toString().split(""); int[]a=new int[s.length]; try{ a=StringToInt(s); } catch (Exception e) { System.err.println("错误"); }//转化为int类型的数组 为什么转化一下数组的格式汇出错误啊?

MongoDB中的mapReduce中reduce文件只作用在一个文档上

小白刚接触MongoDB,看到mapReduce这里不是很清楚,自己编了一段代码,想做个计数,然后发觉map方法出来的value如果只有一个元素的时候,好像不参与到reduce函数的计算中。 如: ``` var map=function(){ emit(this.name,{count:1}) } var reduce=function(key,values){ var count=0; for(var i in values){ count+=values[i].count*2; } return {name:key,age:count} } db.student.mapReduce(map,reduce, { out:"test" } ).find() ``` 输出结果为: ``` { "_id" : "xly", "value" : { "name" : "xly", "age" : NumberInt(4) } } { "_id" : "xxx", "value" : { "name" : "xxx", "age" : NumberInt(4) } } { "_id" : "zzz", "value" : { "count" : NumberInt(1) } } ``` 其中name为zzz的数据只有1个。所以在reduce中把count乘以2,在zzz中没有体现。 有没有大神解释一下,是不是跟python的reduce函数一样要接收两个参数还是怎么回事,还有如果只有一个文档的时候怎么对里面的值进行操作?

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

将一个接口响应时间从2s优化到 200ms以内的一个案例

一、背景 在开发联调阶段发现一个接口的响应时间特别长,经常超时,囧… 本文讲讲是如何定位到性能瓶颈以及修改的思路,将该接口从 2 s 左右优化到 200ms 以内 。 二、步骤 2.1 定位 定位性能瓶颈有两个思路,一个是通过工具去监控,一个是通过经验去猜想。 2.1.1 工具监控 就工具而言,推荐使用 arthas ,用到的是 trace 命令 具体安装步骤很简单,大家自行研究。 我的使用步骤是...

学历低,无法胜任工作,大佬告诉你应该怎么做

微信上收到一位读者小涛的留言,大致的意思是自己只有高中学历,经过培训后找到了一份工作,但很难胜任,考虑要不要辞职找一份他能力可以胜任的实习工作。下面是他留言的一部分内容: 二哥,我是 2016 年高中毕业的,考上了大学但没去成,主要是因为当时家里经济条件不太允许。 打工了三年后想学一门技术,就去培训了。培训的学校比较垃圾,现在非常后悔没去正规一点的机构培训。 去年 11 月份来北京找到了一份工...

JVM内存结构和Java内存模型别再傻傻分不清了

JVM内存结构和Java内存模型都是面试的热点问题,名字看感觉都差不多,网上有些博客也都把这两个概念混着用,实际上他们之间差别还是挺大的。 通俗点说,JVM内存结构是与JVM的内部存储结构相关,而Java内存模型是与多线程编程相关,本文针对这两个总是被混用的概念展开讲解。 JVM内存结构 JVM构成 说到JVM内存结构,就不会只是说内存结构的5个分区,而是会延展到整个JVM相关的问题,所以先了解下

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Google 与微软的浏览器之争

浏览器再现“神仙打架”。整理 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)从 IE 到 Chrome,再从 Chrome 到 Edge,微软与...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

立即提问
相关内容推荐