mrjob 在hdfs上跑怎么运行啊，运行命令是什么

是这样的，我照着网上的教程写好了一个用mrjob模块的mapreduce的python程序，名字叫word.py

在我的hdfs上 /test/bible bible是一个文档，在本地测试的时候扔到word.py里面是可以被计算出单词术的。

我想请问一下，我怎么让这个word.py运行在hadoop的mapreduce上，我看到网页上写的是 python word.py hadoop -r output

请各位大神教我一下。。。要求是输入文件和输出文件都在hdfs上进行。。。条件上面已经给出了。。。谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
路过的好心人1 2016-10-09 06:13
关注
python word.py -r hadoop hdfs:///test/bible -o hdfs:///test/output/

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

mrjob mapper reducer问题 python
2021-03-10 09:41

回答 2 已采纳缩进的问题 26行的yield应该加一个tab
如何用python用mrjob进行mapreduce编写查找长度 2 的所有路径？ python
2021-04-09 05:05

回答 2 已采纳 from mrjob.job import MRJob class part(MRJob): def mapper(self, _, line): words = line.split(','
python集群到hadoop_如何使用Hadoop流在本地Hadoop集群中运行MRJob？
2021-01-12 01:51

爱吃考拉的小粽子的博客我正在学习一个大数据类，我的一个项目是在本地建立的Hadoop集群上运行Mapper/Reducer。在我一直在为类使用Python和MRJob库。在下面是我当前用于Mapper/Reducer的Python代码。在from mrjob.job import MRJobfrom ...
大数据之Hadoop（五）：MapReduce实战、利用MRJob编写和运行MapReduce代码、运行MRJOB的不同方式、mrjob 实现 topN统计（实验）
2020-03-13 21:58

汪雯琦的博客文章目录MapReduce实战3.3.1 利用MRJob编写和运行MapReduce代码3.3.2 运行MRJOB的不同方式3.3.3 mrjob 实现 ...使用python开发在Hadoop上运行的程序, mrjob是最简单的方式 mrjob程序可以在本地测试运行也可以部署到...
大数据和智能数据应用架构系列教程之：大数据存储与管理
2023-10-19 01:29

禅与计算机程序设计艺术的博客什么是大数据？简单地说，大数据就是指海量的数据。由于各种各样的原因，比如互联网、移动互联网、物联网、大数据时代等，使得我们收集、处理和分析的数据的数量呈现爆炸性增长。如今我们手中有大量数据，比如电子...
史上最详细大数据基础知识
2023-03-11 17:25

djyjx的博客 大数据知识详解
大数据python包mrjob的血泪史
2020-11-23 15:48

欧阳AI锋的博客 大数据平台运行mrjob，发现无法创建hdfs文件夹，卡住了，呜呜呜~~~ 啊啊啊啊啊啊啊啊啊通过如下的hadoop命令查看用户 hdfs dfs -ls /user 里面有自己的用户名啊，可是可是为什么hdfs dfs -ls /user/用户名/Input...
大数据技术之Hive
2023-03-18 18:18

DK_521的博客 Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具，将结构化的数据文件映射为一张表，并提供类SQL(HQL)查询功能。...默认存储在自带的derby数据库中，推荐使用MySQL。
大数据面试技术点总结
2023-03-31 11:05

korry24的博客 大数据面试题，hadoop，mysql，hive，spark，kafka，hbase，flink
在Hadoop伪分布式和集群运行mapreduce时，由于数据量过大而导致任务频频崩溃的辛酸史
2022-11-10 23:16

weixin_51662688的博客联想到同学在mac的伪分布式上跑完了全程，于是采用下策：把job2的结果文件取回本地，虚拟机伪分布式上单独运行job3 （6）报错error in shuffle in InMemoryMerger - Thread to merge in-memory shuffled map-outputs...
最全分布式文件系统 HDFS&YARN&MapReduce详讲
2022-04-02 22:36

kuokay的博客 Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统（Distributed File System）。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别...
hadoop（6）——mrjob的使用（2）——交给hadoop集群
2020-10-08 16:00

graceful coding的博客 ps：中间遇到了很多坑，比如说在执行该命令向前，一定要先hadoop fs -rm -r /output，不然已经建立了该文件夹hadoop会报错还有就是如果在虚拟环境下创建该任务，除了（3）的命令外，一定要加上– python-bin +/...
大数据框架和数仓高频面试题总结
2019-02-15 18:17

数据与后端架构提升之路的博客优化面试题和排版，更加聚焦目标首先map task会从本地文件系统读取...将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出之后会进行一个partition分区操作，默认使用的是hashpartitio...
初识大数据，一文掌握大数据必备知识文集(5)
2023-12-29 10:30

普修罗双战士的博客以下是Spark的详细说明：分布式计算系统：Spark是一种分布式计算系统，可以在大规模数据集上进行高效的计算。它使用了内存计算技术，可以将中间数据存储在内存中，避免了计算中频繁的磁盘读写操作，从而提高了计算...
大数据相关知识点
2020-09-10 11:00

怪人陈先生的博客可靠性：不依赖超级计算机的硬件提供可靠性，靠普通计算机在应用层上保障 2003-2004 的三篇论文 GFS：分布式文件系统，演变成HDFS MapReduce：分布式计算框架（Java语言实现，开源）特点：扩展性&容错性&...
大数据 python hadoop_大数据与Hadoop
2020-12-16 07:48

weixin_39883129的博客 1. 大数据简介1.1 大数据的由来...必须使用新的技术来解决这些问题1.2 什么是大数据xxxxxxxxxx【1】定义大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，需要新处理模式才能具有更强...
初识大数据，一文掌握大数据必备知识文集(6)
2023-12-31 09:12

普修罗双战士的博客如果要统计一个文本文件中单词的...由于HDFS会自动在多个Datanode上保存多个数据副本，以确保数据的安全性和可用性，因此复制因子下降可能会导致数据丢失的风险增加，特别是在整个HDFS集群中仅有3个Datanode的情况下。
大数据生态课堂纪要
2021-12-02 09:44

chaser&upper的博客 大数据生态课堂纪要Hadoop 概念Hadoop组件HDFSyarn 架构MapReduceHadoop发型版本选择 Hadoop 概念分布式的计算框架可靠可扩展可扩展集群可以上万台，分布式计算分布式存储可靠high-availability（HA） ...
大数据笔/面试题
2019-11-20 14:01

四月天03的博客 1、采集nginx产生的日志，日志的格式为user ip time url htmlId 每天产生的文件的数据量上亿条，请设计方案把数据保存到HDFS上，并提供一下实时查询的功能（响应时间小于3s） A、某个用户某天访问某个URL的次数 B、...
大数据技术之-Hive源码
2022-07-28 09:16

是小先生的博客可以知道我们执行HQL主要依赖于和两种脚本来实现提交HQL，而在这两个脚本中，最终启动的JAVA进程的主类为”org.apache.hadoop.hive.cli.CliDriver“，所以其实hive程序的入口就是CliDriver类。下载hive3.1.2版本。.....
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

mrjob 在hdfs上跑 怎么运行啊，运行命令是什么

2条回答 默认 最新

悬赏问题

mrjob 在hdfs上跑怎么运行啊，运行命令是什么

2条回答默认最新