【案例分享】MapReduce Service元数据库服务DBservice备实例节点故障

【问题现象】DBservice备实例故障,重启该实例后显示恢复中,然后继续显示故障,具体现象如下所示:

【可能原因】

1、故障实例节点磁盘空间不足;

2、节点网络故障;

3、实例配置文件问题;

4、免密问题;

【过程分析】

1、查看Dbserver的磁盘正常挂载,剩余空间充足。排除磁盘空间不足原因。

2、查看etc/hosts 正常,节点间互相Ping正常。节点间网络正常。

3、查看进程检查日志log,发现浮动ip异常,如下所示:

4、查看浮动ip日志log,发现脚本传参有问题

5、查看floatip服务端配置文件,配置文件异常

6、导致浮动ip配置文件异常的原因,通常有主备节点网络不通、OMM免密失效、SCP无法正常正常执行等原因,导致主备配置无法同步。

7、经确认主备实例网络正常、SCP操作正常,尝试从主DBservice节点使用omm ssh登录备DBservice节点,登录失败,如下所示:

由上图报错,可以看出是因为OMM密码过期,导致免密失效,主备间同步失败、进而导致实例故障。

【解决方案】

方案一:使用如下命令延长OMM用户密码有效期(临时规避)

chage -M '天数' omm

方案二:参考如下方式,设置OMM用户免密永久有效

1、打开/etc/shadow文件,删除红框里面的内容,保存退出

删除后如下所示:

2、查看修改后的OMM密码有效期,如下显示never表示永久有效

(完)