序言
有的坑始终是要踩的,有的路始终是要走的
本次分享的是我在公司的一个真实线上事故,持续时长2小时,现分享出来供大家参考
线上mongodb架构
线上采用mongo副本集群的方式,总共3台机器,如下图:
- 服务器为阿里云香港
- mongodb版本为3.2
- primary的priority设置为2
- 其他secondary的priority设置为1
事故现象
PHP抛异常,连接mongo出错。首先我猜测是网络原因导致php-fpm对mongo错误连接进行了缓存,在通知运维重启php-fpm后问题依旧。
登服...