实例监控重点指标参考_时序数据库 Prometheus® 版_时序时空数据库TSDB_阿里云技术文档

Prometheus自监控输出指标

Prometheus Server启动后会在默认9090端口/metrics输出自身监控指标，本文总结这些监控指标的意义，特别是与产品上线健康检查相关的指标，用户可以配置相应的云监控报警规则。

重点监控指标

数据抓取相关

scrape_duration_seconds：每次抓取的耗时，为了保持Prometheus Server能按照预设的抓取频率稳定搜集数据，抓取耗时不应该超过抓取数据的周期。
scrape_samples_scraped：每次抓取的数据点数。

本地内存与磁盘写入相关

process_resident_memory_bytes: 内存使用大小
process_virtual_memory_bytes: 虚拟内存使用
go_memstats_gc_sys_bytes: 用于GC元数据的字节数
go_memstats_heap_alloc_bytes: 分配并仍在使用的堆字节数
go_memstats_sys_bytes: 从系统获得的字节数
prometheus_tsdb_storage_blocks_bytes: 当前本地存储所有数据块的字节数。该指标对应本地磁盘数据文件夹下chunks文件的总大小（不包括WAL大小）。
prometheus_remote_storage_samples_in_total：写入数据样本总数，如果监控流量一定，这是一个随时间增长的

counter类型指标：

使用PromQL的rate()函数，可以得到该指标在某一定长滑动时间窗口的平均增长率，比如rate(prometheus_remote_storage_samples_in_total[1m])处理后的衍生指标。在运行时，可以配置一个关于此监控指标的Alert，在数据流量超过特定规格下的流量上限时及时给用户报警。

prometheus_tsdb_blocks_loaded：该指标显示当前数据blocks个数。Block数量下降的时刻是Prometheus进程进行了数据块合并操作（compaction），合并操作可以通过prometheus_tsdb_compaction_populating_block指标监测到

失败监控指标（正常情况下为0）

prometheus_target_scrape_pools_failed_total: 失败的抓取池总数
prometheus_target_scrape_pools_failed_total: 失败的scrape循环重新加载的总数
prometheus_rule_evaluation_failures_total: 规则评估失败的总数
prometheus_tsdb_checkpoint_creations_failed_total: 失败的检查点创建总数
prometheus_tsdb_checkpoint_deletions_failed_total: 失败的检查点删除总数
prometheus_tsdb_compactions_failed_total: 失败的数据块合并压缩总数
prometheus_tsdb_head_truncations_failed_total: 失败的头部数据块删减总数
prometheus_tsdb_reloads_failures_total: 无法从本地磁盘重新加载块数据的次数
prometheus_tsdb_wal_truncations_failed_total: 失败的WAL删减总数
prometheus_tsdb_wal_corruptions_total: WAL损坏的总数
prometheus_notifications_dropped_total: 发送到Alertmanager时由于错误而丢弃的警报总数

实例监控重点指标参考_时序数据库 Prometheus® 版_时序时空数据库TSDB

实例监控重点指标参考

Prometheus自监控输出指标

重点监控指标

数据抓取相关

本地内存与磁盘写入相关

counter类型指标：

失败监控指标（正常情况下为0）

版权声明

评论

实例监控重点指标参考_时序数据库 Prometheus&reg; 版_时序时空数据库TSDB

实例监控重点指标参考

Prometheus自监控输出指标

重点监控指标

数据抓取相关

本地内存与磁盘写入相关

counter类型指标：

失败监控指标（正常情况下为0）

版权声明

评论

实例监控重点指标参考_时序数据库 Prometheus® 版_时序时空数据库TSDB