2 wangqingbo0829 wangqingbo0829 于 2016.09.26 10:05 提问

zookeeper集群,宕掉1个后,都不能用了 20C

我用VMWare搭建了3个主机的zookeeper,已经实现了数据同步了(在一个主机创建了数据,在其他主机,启动客户端,都能查看了)。但,其中一个kill -9 id后,其他的都不能用了。

 [root@wqb99 ~]# /itcast/zookeeper-3.4.9/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /itcast/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: leader
[root@wqb99 ~]# jps
2739 Jps
2531 QuorumPeerMain
[root@wqb99 ~]# kill -9 2531
[root@wqb99 ~]# jps
2749 Jps
[root@wqb99 ~]# 

发现其他节点也宕机了
(1)
[root@wqb88 ~]# /itcast/zookeeper-3.4.9/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /itcast/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower
[root@wqb88 ~]# /itcast/zookeeper-3.4.9/bin/zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /itcast/zookeeper-3.4.9/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
[root@wqb88 ~]#
(2)
[root@wqb66 bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /itcast/zookeeper-3.4.9/bin/../conf/zoo.cfg
Mode: follower
[root@wqb66 bin]# ./zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /itcast/zookeeper-3.4.9/bin/../conf/zoo.cfg
Error contacting service. It is probably not running.
[root@wqb66 bin]#

4个回答

feng1790291543
feng1790291543   Ds   Rxr 2016.09.26 10:25
wangqingbo0829
wangqingbo0829 感谢您的帮忙,我认真阅读了您推荐的这两篇博文,我没有找到有效的解决方案。请大神再帮忙分析分析
接近 2 年之前 回复
wangqingbo0829
wangqingbo0829   2016.09.26 10:56

感谢您的帮忙,我认真阅读了您推荐的这两篇博文,我没有找到有效的解决方案。请大神再帮忙分析分析

u011606457
u011606457   2016.09.26 11:41

集群中每个机器都需要感知其他机器的存在

比如:
集群机器配置:

server1=ip1:2888:3888;

server2=ip2:2888:3888;

server3=ip3:2888:3888;

2888是follow连接leader的端口号,3888是选举leader的端口号

wangqingbo0829
wangqingbo0829 感谢,这个配了,已实现了数据同步。我把配置文件一块儿贴出来吧
接近 2 年之前 回复
wangqingbo0829
wangqingbo0829   2016.09.26 14:29

问题的资料补充——zoo.cfg配置文件:

 [root@wqb66 conf]# cat zoo.cfg 
# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/itcast/zookeeper-3.4.9/data
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1


server.1=wqb88:2888:3888
server.2=wqb99:2888:3888
server.3=wqb66:2888:3888
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
zookeeper集群某台机器故障替换步骤
背景: 一个有5台机器的ZK集群,其中一台机器zk1.abc.com故障,需要将其替换下线。说明:访问该ZK集群的客户端Java程序要加上定期更新域名解析的参数。 zoo.cfg配置文件如下:tickTime=2000initLimit=10syncLimit=5dataDir=/home/hadoop/cluster-data/zk/dataclientPort=2181maxClien
一次Hadoop集群宕机事故总结
10月27日下午,机房中心交换机坏掉,导致HDFS集群和MR(YARN)集群宕掉。 当时的日志现在已查不到,只能推断整个集群宕掉的原因。 HDFS和YARN的集群,都是master/slave模式,其中处于master角色的组件有:NameNode,ResourceManager。某种角度,只要master没有挂掉,可以认为集群没有挂掉。 同时,我们的HDFS集群和YARN集群都配置
datanode进程宕掉解决方案
异常描述: hadoop跑一段时间以后几台datanode无故宕掉,chakna 异常分析: 解决方案:
Oracle经常宕掉的解决办法
<br />http://chaoji-liangbin.blog.163.com/blog/static/25239212201061410291208/<br /> <br /> <br />最近服务器的oracle经常宕掉,几乎每天宕一次,察看日志,发现出现“Thread 1 cannot allocate new log”错误,也导致了一个Tablespace的空间不足。<br />对于这个错误信息得解释如下:<br />当系统要重新利用某个日志文件的时候,系统需要将该日志文件所包括的buffer
zookeeper集群管理
zookeeper介绍 zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的Hadoop项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法。   zookeeper安装和使用 zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc
hbase 备份HMatser服务——完全分布式
hbase 备份HMatser服务——完全分布式 如果目前使用的是伪分布式,那么请看这篇文章实现备份HMaster服务: http://blog.csdn.net/wild46cat/article/details/53218489 1、保证正常的HBase能够跑起来: 2、关闭HBase服务:stop-hbase.sh 3、在hbase/conf/文件加
ActiveMQ小记(二):基于ZooKeeper的HA方案
本文基于:http://www.cnblogs.com/yjmyzz/p/activemq-ha-with-zookeeper.html 从 ActiveMQ 5.9 开始,ActiveMQ 的集群实现方式取消了传统的Master-Slave 方式,增加了基于ZooKeeper + LevelDB的 Master-Slave实现方式,其他两种方式目录共享和数据库共享依然存在。
100 道常见 Hadoop 面试题及答案解析
100 道常见 Hadoop 面试题及答案解析 目录 1 单选题 ...................................................................................................................... 5   1.1
zookeeper 集群重启之后无法使用
解决zookeeper集群重启后报错的问题: 2017-03-31 10:14:21,067 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@1098] - Unable to read additional data from server sessionid 0x0, likely server has closed socket, closing socket connection and attemptin
检测 MySQL 是否宕掉,如果宕掉则启动
如果你的 MySQL 经常宕机,可以用这个脚本来实现宕机后自动启动,把它加到 crontab 里执行即可. #!/bin/bash   result=`/usr/bin/mysqladmin ping` expected='mysqld is alive'   if [[ "$result" != "$expected" ]]