2 ctct2007 ctct2007 于 2016.03.31 13:56 提问

关于大数据中,hadoop环境搭建问题。恶心两天了,求大神指导

我已经完成两项工作:
1、下载安装VMware
2、完成虚拟机3个几点的安装,我安装的是centOS(按照网上说的一个是master,两个是slave)
现在的问题是:
下面我该做什么,网上教程要么他们千篇+拽文,言辞之间又帅又高大上。要么直接跳过变空挡,并且讲出来的没有共同地方。恶心的我够呛,求大神指导一下,下面我该做什么才能搭建好Hadoop

3个回答

ch717828
ch717828   2016.03.31 15:03

之前在阿里云上搭建了一个hadoop 。 作为记录写了一篇博客,不妨看看

http://blog.csdn.net/ch717828/article/details/48440173

zhangshangui_2015
zhangshangui_2015   2016.03.31 14:43

(0)配置SSH,然后按照以下步骤进行
(1)安装Java JDK、Java JRE
(2)从apache上下载Hadoop源码包
(3)将Hadoop源码包扔到Linux系统home文件夹下
(4)解压hadoop源码包,命令行 tar xzf hadoop-1.1.x.tar.gz
(5)修改hadoop用户配置文件.bashrc,增加java和hadoop的环境变量
(6)更新hadoop的配置文件(core-site.xml mapred-site.xml 以及hdfs-site.xml)
(7)用命令行格式化hadoop分布式文件系统
(8)用命令行启动hadoop单节点集群
(9)整完收工。

wl1411956542
wl1411956542 不要误人子弟
接近 2 年之前 回复
wl1411956542
wl1411956542   2016.10.19 21:53

Hadoop集群安装
1.配置服务器
1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)
配置主节点名(192.168.15.128)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=master
配置两台子节点名(192.168.15.129)和(192.168.15.130)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver1

vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver2

配置hosts
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts

192.168.15.128 master
192.168.15.129 slaver1
192.168.15.130 slaver2
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts root@192.168.15.129:/etc/
scp /etc/hosts root@192.168.15.130:/etc/
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostsname hostsname
例如:master上执行 /bin/hostsname master,使之生效。
2. 配置ssh无密码访问
生成公钥密钥对
在每个节点上分别执行:
ssh-keygen -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
其中前者为私钥,后者为公钥
在主节点上执行:
cp id_rsa.pub authorized_keys
将子节点的公钥拷贝到主节点并添加进authorized_keys
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver1.pub
scp ~/.ssh/ id_rsa.pub root@master:/~/.ssh/id_rsa_slaver2.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys

最后测试是否配置成功
在master上分别执行
ssh slaver1
ssh slaver2
能正确跳转到两台子节点的操作界面即可,同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。

这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
scp authorized_keys root@slaver1:/root/.ssh/
scp authorized_keys root@slaver2:/root/.ssh/

  1. 安装jdk 卸载jdk 查看系统已经装的jdk: rpm -qa|grep jdk 卸载jdk: rpm -e --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64 安装JDK(三台机器都要安装) 安装在同一位置/opt/java/jdk1.7.0_72 下载JDK 解压JDK : tar -zxvf /opt/java/jdk-7u72-linux-x64.gz 配置环境变量, 编辑profile文件: vi /etc/profile

在profile文件末尾添加以下代码:
export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
保存后,使刚才编辑的文件生效:
source /etc/profile
测试是否安装成功:java –version
4.安装hadoop
在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop
tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz

在usr下面生成hadoop-2.6.4目录
配置环境变量:
vi /etc/profile
在末尾添加:
export HADOOP_HOME=/usr/ hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin
保存后使新编辑的profile生效:
source /etc/profile
5.配置hadoop
配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:
hadoop-env.sh中

The java implementation to use.

export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)

The jsvc implementation to use. Jsvc is required to run secure datanodes

that bind to privileged ports to provide authentication of data transfer

protocol. Jsvc is not required if SASL is configured for authentication of

data transfer protocol using non-privileged ports.

#export JSVC_HOME=${JSVC_HOME}

yarn-env.sh中

User for YARN daemons

export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}

resolve links - $0 may be a softlink

export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

some Java parameters

export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)

core-site.xml中


fs.defaultFS
hdfs://master:9000


io.file.buffer.size
131072


hadoop.tmp.dir
file:/usr/temp


hadoop.proxyuser.root.hosts



hadoop.proxyuser.root.groups



hdfs-site.xml中


dfs.namenode.secondary.http-address
master:9001


dfs.namenode.name.dir
file:/usr/dfs/name


dfs.datanode.data.dir
file:/usr/dfs/data


dfs.replication
2


dfs.webhdfs.enabled
true


dfs.permissions
false


dfs.web.ugi
supergroup


mapred-site.xml中


mapreduce.framework.name
yarn


mapreduce.jobhistory.address
master:10020


mapreduce.jobhistory.webapp.address
master:19888


yarn-site.xml中


yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler


yarn.resourcemanager.address
master:8032


yarn.resourcemanager.scheduler.address
master:8030


yarn.resourcemanager.resource-tracker.address
master:8031


yarn.resourcemanager.admin.address
master:8033


yarn.resourcemanager.webapp.address
master:8088


slaves中
slaver1
slaver2
拷贝hadoop安装文件到子节点
主节点上执行:
scp -r /usr/hadoop-2.6.4 root@slaver1:/usr
scp -r /usr/hadoop-2.6.4 root@slaver2:/usr
拷贝profile到子节点
主节点上执行:
scp /etc/profile root@slaver1:/etc/
scp /etc/profile root@slaver2:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile

格式化主节点的namenode
主节点上进入hadoop目录
然后执行:
./bin/hadoop namenode –format
新版本用下面的语句不用hadoop命令了
./bin/hdfs namenode –format

提示:successfully formatted表示格式化成功
启动hadoop
主节点上在hadoop目录下执行:
./sbin/start-all.sh

主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功

wl1411956542
wl1411956542 不好意思,粘贴出来有问题,http://blog.csdn.net/wl1411956542这是我的博客
接近 2 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
July大神的大数据解决思路
作者:July 出处:结构之法算法之道blog 前言    一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。     毕竟受文章和理论之限,本文摒弃绝大
大神指导的简历
写一周内到岗,或者 "目前在职期望新工作" 期望薪资待遇一定要写, 我们公司招人的时候 面议的不约的,面议的意思是不确定自己的需要,对自己定位不明确啥的, 别用163邮箱,用foxmail 或者hotmail之类的英文的
基于MFC ppi计算器
新手自己写的ppi计算器,开发环境:vs2010 win8.1 ,求指导,求大神指导
我的大数据学习之路
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的:              云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法
关于大数据最常见的10个问题
1、云计算与大数据是什么关系?  云计算的关键词在于“整合”,无论你是通过现在已经很成熟的传统的虚拟机切分型技术,还是通过google后来所使用的海量节点聚合型技术,他都是通过将海量的服务器资源通过网络进行整合,调度分配给用户,从而解决用户因为存储计算资源不足所带来的问题。  大数据正是因为数据的爆发式增长带来的一个新的课题内容,如何存储如今互联网时代所产生的海量数据,如何有效的利用分析这些数据等...
Spark大神班--涛哥星哥联合BAT大神倾情打造
1.Spark大神班课程特色 涛哥星哥联合BAT大神倾情打造!!! 当其他培训机构还在进Spark 1.0的时,我们早已经升级到Spark 2.0了;当其他培训机构还在使用Demo级别的案例时教学时,我们早已经加入了三大企业级真实项目;当其他培训机构授课仅蜻蜓点水时,我们早已经带着学员阅读Spark的核心源码了!Spark大神班为有一定基础且想深入学习Spark的学员量身打造,拒绝平庸,与
java大神潜在的十个特征
java以其简单,稳健,高效的特性对于编程来说是个不错的选择,那么我们该如何学习掌握这门语言呢?下面列举了一些关于学习java的一些心得,希望对大家有所帮助 1.订阅最新资讯 学习新技术首先要做的是订阅相关的技术社区论坛。我们并非是独行者。很多人都和我们一样在研究着相同的技术。只对某个框架概念做验证是不难,但是当你将这些概念应用到实际的项目中时,那么各种各样的问题,各种在搜索不到解决方
ubuntu环境下hadoop环境搭建(伪分布模式)
ubuntu环境下hadoop环境搭建(伪分布模式),是本人学习大数据以来对于hadoop环境搭建的一些经验,现在写成文档的形式分享给大家。
大数据学习系列之一 ----- Hadoop环境搭建(单机)
一、环境选择1,服务器选择阿里云服务器:入门型(按量付费) 操作系统:linux CentOS 6.8 Cpu:1核 内存:1G 硬盘:40G ip:39.108.77.250 2,配置选择JDK:1.8 (jdk-8u144-linux-x64.tar.gz) Hadoop:2.8.2 (hadoop-2.8.2.tar.gz)3,下载地址官网地址: JDK:
大数据警务云——提高公安机关的整体作战水平之利器
        在信息社会背景下,警务战场的实时态势信息、警务领导与指挥命令、治安监控传感器信息等,都是以数据形式存在并传输的。公安大数据已经成为构成公安战斗力的重要因素。以大数据为支撑的公安信息资源的广泛搜集、深度分析和应用,将使警务形态发生质的变化,推动其向着更加智慧的方向发展。如何以大数据为中心精确设计和指挥警务,已经成为改革和创新公安管理的制高点。        这些不同来源、不同类型的数...