可观测性系统在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
指标监控:即各种指标监控,比如基础资源指标,服务性能指标,业务的调用指标。
日志:各种设备以及服务的运行日志监控。
调用链:业务层面的调用链分析,通常在分布式系统中帮助运营、开发以及运维人员快速识别整体调用的瓶颈点
一整套的可观测系统,它能确保你洞察系统,跟踪系统的健康状态、可用性以及系统内部发生的事情。
对于整个可观测系统的建设,需要注意如下两点:
确定质量标准是什么,并确保系统持续逼近或保持在质量标准极限范围内
系统地关注这项工作—而不应该只是随机地查看一下系统
在整个企业级可观测系统中,我认为至少应该包括如下几个特征:
完备指标采集:可以对接企业内大部分的设备与技术栈相应的监控指标;同时,支持常见设备的监控指标体系,可以快速接入监控设备和指标,避免所有设备监控都是从头构建;对于日志数据的采集支持
海量设备支持:企业IT系统数量和规模越来越大,因此监控系统比以前需要监控海量设备监控。
监控数据存储和分析:监控数据是运维分析、运维自动化和智能化的基础,因此海量监控数据存储以及基于监控数据的可视化分析是一个监控系统的基本能力。
可观测系统是整个运维体系的基础,它需要提供整个运维体系的数据化支持。
因此,一个企业级的可观测性系统应该是平台化的。一方面可以通过配置或者开发实现