上QQ阅读APP看书,第一时间看更新
1.7 谁来监控这些检测插件
如果说系统监控的概念存在致命缺陷,那就是使用不可信系统去监视其他不可信系统。如果监控系统本身发生故障,此时最重要的是至少你能得知这个消息。如果监控系统本身就设计为故障转移群集的架构,那就更好了。
用户的网络环境情况决定了当监控系统故障时需要发生什么。如果用户受到SLA的严格约束,那么运行时间报告本身就是用户业务的重要组成部分,那么应当采用故障转移群集的架构。一般情况下,知道监控系统宕机就足够了。
确认监控系统发生故障是一个比较麻烦的事情。除非用户在一线ISP工作,否则当用户级别足以访问网络拓扑的时候,经常会发现上游的依赖关系,而用户没有控制权,但这并非否定计划的必要性。
小公司至少应该有第2套系统,如Syslog系统,或者其他基础设施能够检测监控系统心跳,并在出现问题时发送告警。大公司可能希望考虑全局监控平台,由某家监控解决方案公司提供方案,或是维护一套基于Nagios的分布式环境负责各地的监控。
Nagios自身的架构使其很容易在隔离的环境中镜像配置和状态信息。配置和状态信息默认都以简洁的明文保存在文件中。配置语法挂钩的存在使得事件的镜像易如反掌,并且Nagios可以通过此功能在分布式监控情境中,配置为多Nagios服务器的方式。监控系统自身可能是所有系统中最需要监控的,所以千万别忘了在关键系统列表中加上它。