首页 > 服务配置 > etcd集群故障处理
2018
06-24

etcd集群故障处理

etcd安装

hosts如下

etcd配置

etcd02配置如下,详细见kubernetes1.9版本集群配置向导

ETCD_INITIAL_CLUSTER_STATE=”existing” 注意配置中状态是 existing ,不是 new

故障报错

3个节点做集群,直接关机后,etcd02故障,报错:

wal的cec校验出错,谷歌了一下,没什么结果,于是移除这个etcd,再恢复
在正常的etcd节点移除

再启动etcd服务
# systemctl start etcd
报错:

报错:

etcd恢复数据

在etcd02节点恢复一下数据试试:

服务启动了,自己把自己选做主,服务倒是启动了,加入集群还是出错,用正常的节点备份再恢复

看看现在集群的其他2个etcd

参考文档:
etcdctl member add etcd_name –peer-urls=”https://peerURLs”
再次添加

查看etcd member状态:

报错:

发现步骤顺序错误,应该是先添加到etcd集群,再启动etcd服务,我们现在先启动etcd服务,就是一个etcd单点

etcd节点加入集群

故障的etcd主机:

正常的etcd主机:

故障的etcd主机,启动etcd后,再查看etcd状态:

到这里,etcd故障修复完毕

etcd常用命令

查看状态

备份及恢复

etcd监控

适合用prometheus监控

图解raft算法 http://thesecretlivesofdata.com/raft/

etcd获取kubernetes的数据

获取etcd中kubernetes所有对象的key

etcd理论 手把手教你学习 etcd

最后编辑:
作者:bbotte

留下一个回复

你的email不会被公开。