监控与报警
监控及报警
- 分析集群使用云监控做核心指标的监控,以及配置报警。
基本指标报警配置
- 直接点击指标上面的“报警”按钮
- 选择报警的指标、配置报警规则名称、以及阈值,这里配置集群可用的内存小于1024MB时报警
Streaming指标的报警配置
- Streaming指标说明:Streaming对用户提供“StreamingInputRate”、“StreamingLatency”这两个指标,分别用来监控Streaming作业的数据输入率以及延迟。
- 监控:从监控图中可以看出,当一个集群运行多个Streaming作业时,不同的appid会有不同的监控曲线
- 报警配置:目前云监控不支持在页面对Streaming这样的指标,根据appId来单独配置报警,需要使用云监控的OpenAPI的“CreateAlarm”来配置。以上图中“application_1540978821858_0003”这个Streaming作业的“StreamingLatency”为例,当延迟大于40s时报警参数说明:
参数 | 含义 | 值 |
---|---|---|
Namespace | HBase的监控空间 | acs_hbase(固定) |
MetricName | 要监控的指标 | 填写对应监控图的名称 |
Dimensions | 监控指标的维度配置(指定clluster、appId) | [{“clusterId”:”ap-xxx”,”appId”:”application_xxx_0003”}] |
Statistics | 指标计算方法 | Average(固定) |
ComparisonOperator | 比较算子 | >= |
Threshold | 阈值 | 40 |
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论