MapReduce代码集群上跑报错，如何解决？

MapReduce代码本地可以跑通：

但是上Hadoop集群就报错：

这是我的map.py、reduce.py和run.sh

import os
import sys
import re


def get_white_list_word(white_list_dir):
    white_list_word = set()

    if os.path.isdir(white_list_dir):
        for cachefile in os.listdir(white_list_dir):
            with open(white_list_dir + '/' + cachefile) as cachefile:
                for word in cachefile:
                    word = word.strip()

                    white_list_word.add(word)

    return white_list_word


def mapper_func(white_list_dir):
    white_list_word = get_white_list_word(white_list_dir)

    for line in sys.stdin:
        word_list = line.strip().split(' ')

        for word in word_list:
            if len(re.findall(r'\w+', word)) < 1:
                continue

            word = re.findall(r'\w+', word)[0].lower()

            if word in white_list_word:
                print('\t'.join([word, '1']))


if __name__ == '__main__':
    module = sys.modules[__name__]
    func = getattr(module, sys.argv[1])

    args = None
    if len(sys.argv) > 1:
        args = sys.argv[2:]

    func(*args)

import sys


def reducer_func():
    cur_word = None
    cur_cnt = 0

    for line in sys.stdin:
        word, cnt = line.strip().split('\t')

        if cur_word == None:
            cur_word = word

        if cur_word != word:
            print('\t'.join([cur_word, str(cur_cnt)]))

            cur_word = word
            cur_cnt = 0

        cur_cnt += int(cnt)

    print('\t'.join([cur_word, str(cur_cnt)]))


if __name__ == '__main__':
    module = sys.modules[__name__]
    func = getattr(module, sys.argv[1])

    args = None
    if len(sys.argv) > 1:
        args = sys.argv[2:]

    func(*args)

HADOOP_CMD="/usr/local/src/hadoop_2.6.1/bin/hadoop"
STREAM_JAR_PATH="/usr/local/src/hadoop_2.6.1/share/hadoop/tools/lib/hadoop-streaming-2.6.1.jar"

INPUT_PATH="/input_mr_cachearchive_broadcast/the_man_of_property.txt"
OUTPUT_PATH="/output_mr_cachearchive_broadcast"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

$HADOOP_CMD jar $STREAM_JAR_PATH \
  -input $INPUT_PATH \
  -output $OUTPUT_PATH \
  -mapper "python map.py mapper_func WLD" \
  -reducer "python reduce.py reducer_func" \
  -jobconf "mapred.reduce.tasks=2" \
  -jobconf "mapred.job.name=mr_cachearchive_broadcast" \
  -jobconf "stream.non.zero.exit.is.failure=false" \
  -cacheArchive "hdfs://master:9000/input_mr_cachearchive_broadcast/white_list_dir.tgz#WLD" \
  -file "./map.py" \
  -file "./reduce.py"

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
恐怖如斯恐怖如斯啊 2024-11-24 16:40
关注
以下回复参考：皆我百晓生、券券喵儿等免费微信小程序作答:

根据你提供的代码和错误信息，看起来你的Hadoop MapReduce任务在运行时遇到了问题。这里有几个可能的原因和解决方案：

Hadoop版本和Python版本兼容性问题：确保你的Hadoop版本与Python版本兼容。有时候，某些Hadoop版本可能与Python 3不完全兼容。你可能需要尝试使用Python 2来运行你的MapReduce任务。
Hadoop配置问题：检查你的Hadoop集群配置是否正确。确保所有的节点都可以互相通信，并且资源管理器（ResourceManager）正在运行。
数据流问题：你的mapper和reducer函数看起来没有问题，但是你需要确保输入数据（the_man_of_property.txt）的格式正确，并且你的white list目录包含正确的单词列表。另外，-cacheArchive选项的使用可能存在问题，确保你的归档文件路径正确，并且归档文件已成功上传到HDFS。
Job配置问题：检查你的run.sh脚本中的Hadoop命令配置是否正确。尤其是-jobconf选项，确认你设置的mapred.reduce.tasks和mapred.job.name等参数是否正确。如果这些参数有误，可能会导致任务失败。
资源问题：确认你的集群有足够的资源（CPU、内存等）来运行你的MapReduce任务。如果资源不足，可能会导致任务失败。
警告信息中的潜在问题：在日志中，你看到了许多关于废弃选项的警告信息。虽然这些可能不会直接导致任务失败，但是最好更新你的Hadoop命令以使用最新的、非废弃的选项。例如，使用-D替代-jobconf。

为了更准确地找出问题所在，你可以查看Hadoop的日志输出，找到更详细的错误信息。你可以在Hadoop的JobTracker或ResourceManager的Web UI上查看日志，或者在运行MapReduce任务的机器上的本地日志目录中查找。

最后，如果你已经检查了以上所有可能的问题并且仍然无法解决问题，建议你向具有Hadoop和Python经验的开发者寻求帮助，或者查阅相关的技术社区和文档。
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

MapReduce集群进行词频统计，报错
2023-11-18 14:15

m0_74226584的博客 jar包已上传，文件word.txt已上传到hdfs下/input，linux输入指令报错。
大数据集群各种报错及解决方案
2024-06-09 10:07

呼伦贝尔-钢蛋儿的博客这个错误信息是Hadoop分布式文件系统（HDFS）中常见的问题，当你尝试在Hive或其他Hadoop应用程序中创建目录时遇到。...在执行任何操作之前，建议查阅集群的官方文档或联系系统管理员，以确保操作的正确性和安全性。
【Hadoop集群搭建】集群崩溃处理及启动时常见报错解决办法
2024-06-20 15:25

布丁椰奶冻的博客 1. 集群崩溃处理 1.1 杀死进程 1.2删除目录（logs/和hadoopdata/） 1.3重新初始化集群 1.4重新启动集群 2. 启动时常见报错在运行程序测试 MapReduce 计算框架时报错如下
大数据集群报错集锦及解决方案
2021-07-22 10:33

陈舟的舟的博客 大数据集群报错集锦及解决方案
【大数据】java API 进行集群间distCP 报错unresolvedAddressException
2025-06-20 23:13

matdodo的博客 unresolvedAddressException 报错解决，java distCP api 调用
大数据与云计算——部署Hadoop集群并运行MapReduce集群案例(超级详细！)
2023-09-24 18:02

星川皆无恙的博客这篇博客文章详细介绍...接下来，我们将介绍如何在Hadoop集群上运行MapReduce任务，包括编写MapReduce程序，配置任务，以及监控任务的执行。最后，我们将分享一些优化Hadoop集群性能和MapReduce任务效率的技巧和建议。
【大数据】Hadoop_MapReduce➕实操（附详细代码）
2023-07-30 00:58

欧叶冲冲冲的博客 MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs，一是分布式计算框，就是mapreduce，二者缺一不可，也就是说，可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程...
Hadoop最新版本hadoop-3.4.1搭建伪分布式集群以及相关报错解决
2025-02-27 23:41

chasemydreamidea的博客一：概述一：概述Hadoop 是...伪分布式集群是 Hadoop 的一种部署模式，它可以在单台机器上模拟集群环境，适合初学者进行学习和实验。本文将详细介绍如何在单台机器上搭建 Hadoop 3.4.1 的伪分布式集群。二：具体说明。
大数据集群快速安装教程
2023-01-12 12:49

yiluohan0307的博客 大数据集群快速安装教程。
Hadoop 教程 - MapReduce开发过程中常见错误及解决方案
2024-06-25 09:43

用心去追梦的博客在进行Hadoop MapReduce开发时，开发者可能会遇到多种错误。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月24日

MapReduce代码集群上跑报错，如何解决？

1条回答 默认 最新

问题事件

1条回答默认最新