通过静态阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告警,当没有指标数据上报时产生数据不足事件。
AOM已对接消息通知服务(Simple Message Notification,简称SMN),通过在SMN界面设置通知策略,当静态阈值规则的状态(正常、超限阈值、数据不足)发生变化时,会以邮件或短信等方式通知,以便您在第一时间发现异常并进行处理。
创建方式
静态阈值规则从资源与规则的对应关系上分为单条静态阈值规则和批量静态阈值规则,供您选择使用。
- 单条静态阈值规则:资源和规则是多对多的关系,当监控多个资源时,一次创建操作完成后,会生成多条规则,每个资源都可通过独立的规则进行监控。
当需要单独监控某个资源时,建议使用此方式,操作详见自定义静态阈值规则。
- 批量静态阈值规则(该功能仅对华北-北京一区域和华东-上海二区域生效):资源和规则是多对一的关系,当监控多个资源时,一次创建操作完成后,只生成一条规则,多个资源是通过同一条规则进行监控。
当需要集中监控多个资源时,建议使用此方式。
- 根据运维经验,AOM对所有主机和所有服务的关键指标(包括CPU使用率指标、物理内存使用率指标、主机状态指标、服务状态指标)预置了默认批量阈值规则。您不用进行复杂的操作,单击按钮即可一键创建,操作详见一键创建默认批量静态阈值规则。
- 如果默认批量静态阈值规则不能满足需求时,您需使用静态阈值模板进行创建,操作详见使用模板创建静态阈值规则。静态阈值模板是为创建批量静态阈值规则做准备的,您需先创建一个静态阈值模板,操作详见创建静态阈值模板。
注意事项
自定义静态阈值规则
- 登录AOM控制台,在左侧导航栏中选择“告警 > 阈值规则”,单击右上角的“添加阈值”。
- 自定义静态阈值规则。
- 选择资源:在“阈值名称”文本框中输入阈值规则名称,单击“自定义创建”,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。
- 资源树上最多可选择100个资源。
- 当选择多个资源时,创建操作完成后,会创建多个单条静态阈值规则,每个资源对应一个单条静态阈值规则。规则命名方式为:您在“阈值名称”文本框中设置的阈值规则名称加上0至9的序号(序号和资源选择时的先后顺序有关,先选择的资源序号越小,后选择的资源序号越大)。
图1 选择资源 - 定义阈值:选择待监控的指标,设置阈值条件、连续周期、告警级别、统计方式等参数,选择是否发送通知。
- 阈值条件:阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。
- 连续周期:连续多少个周期满足阈值条件后,发送阈值告警。
- 统计方式:指标数据按照所设置的统计方式进行聚合。
- 统计周期:指标数据按照所设置的统计周期进行聚合。
- 选择是否发送通知:当静态阈值规则的状态(正常、超限阈值、数据不足)发生变化时,选择是否发送邮件或短信通知该变动。
- 如需使用邮件或短信方式发送通知,请选择“是”,则需设置通知策略,选择已创建的主题,选择触发场景。
- 如不需接收邮件或短信通知,请选择“否”。
- 触发场景:发送通知的触发条件。
触发场景您可选择多个。例如,当阈值状态变为超限阈值时,您需要收到通知,则触发场景选择超限阈值;只要阈值状态发生变化时,您都需要收到通知,则触发场景可以全选。
图2 定义阈值
- 选择资源:在“阈值名称”文本框中输入阈值规则名称,单击“自定义创建”,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。
- 单击“添加”,完成创建。如下图所示,创建了多个单条静态阈值规则,一个资源对应一个规则,可使用独立的规则对某个资源进行监控。
如下图所示,对于一个单条静态阈值规则,其监控对象为某个主机,当主机的CPU使用率超过85%时,在告警界面产生阈值告警,可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警;当主机满足已设的通知策略时,就会发送邮件或短信。
图3 单条静态阈值规则
使用模板创建静态阈值规则
该功能仅对华北-北京一区域和华东-上海二区域生效。
使用模板创建静态阈值规则前,请先创建一个静态阈值模板,操作详见创建静态阈值模板。
- 登录AOM控制台,在左侧导航栏中选择“告警 > 阈值规则”,单击右上角的“添加阈值”。
- 选择资源:输入阈值规则名称,单击“模板导入”,选择资源类型,在资源树上选择待监控的资源,单击“下一步”。
- 若开关为关闭状态(即为):需您在资源树上自定义选择一个或多个资源,最多可选择100个资源。
- 若开关为开启状态(即为):当资源类型为主机时,监控的资源为所有的主机;当资源类型为组件时,监控的资源为所有组件。该功能对新增的主机或组件也生效,若后续又新增了主机或组件,您不用做任何操作。
图4 选择待监控的资源 - 选择已创建的静态阈值模板。图5 选择静态阈值模板
- 单击“添加”,完成创建。如下图所示,创建了一条批量静态阈值规则,单击其前的,可对其下的多个资源的同一指标批量监控。
如下图所示,在展开的列表中,只要某个主机的CPU使用率超过85%时,在告警界面就会生成一条阈值告警,您可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警;只要某个主机满足已设的通知策略,就会发送一条邮件或短信。
一键创建默认批量静态阈值规则
该功能仅对华北-北京一区域和华东-上海二区域生效。
- 登录AOM控制台,在左侧导航栏中选择“告警 > 阈值规则”。
- 在“规则列表”页签中单击“一键创建默认阈值”。
AOM会自动创建6个静态阈值模板(可单击“静态阈值模板”页签,在列表中进行查看,详见一键创建默认静态阈值模板),于此同时AOM也会使用这6个模板分别创建6个默认的批量静态阈值规则(其监控对象为所有的主机或所有的服务,如图6所示)。例如,单击[node:default-static-rule] CPU Usage前的,可批量监控您所有主机的CPU使用率。
若后续又新增了主机或服务,您不用做任何操作,AOM会自动将新增资源添加到规则中。
图7 默认批量静态阈值规则表1 默认批量静态阈值规则说明 默认批量静态阈值规则名称/其默认静态阈值模板名称
资源
指标
其静态阈值模板默认设置
- 规则:[node: default-static-rule] CPU Usage
- 模板:[node: default-static-template] CPU Usag
主机
CPU使用率
统计方式:平均值;阈值条件:>90%;连续周期:3次;统计周期:1分钟;告警级别:重要;发送通知:否
- 规则:[node: default-static-rule] Physical Memory Usage
- 模板:[node: default-static-template] Physical Memory Usage
物理内存使用率
- 规则:[node: default-static-rule] Node Status
- 模板:[node: default-static-template] Node Status
主机状态
统计方式:平均值;阈值条件:>0;连续周期:1次;统计周期:1分钟;告警级别:重要;发送通知:否
- 规则:[service: default-static-rule] CPU Usage
- 模板:[service: default-static-template] CPU Usage
组件
CPU使用率
统计方式:平均值;阈值条件:>90%;连续周期:3次;统计周期:1分钟;告警级别:重要;发送通知:否
- 规则:[service: default-static-rule] Physical Memory Usage
- 模板:[service: default-static-template] Physical Memory Usage
物理内存使用率
- 规则:[service: default-static-rule] Status
- 模板:[service: default-static-template] Status
组件状态
统计方式:平均值;阈值条件:>0;连续周期:1次;统计周期:1分钟;告警级别:重要;发送通知:否
更多静态阈值规则操作
静态阈值规则创建完成后,您还可以执行表2中的操作。
操作 |
说明 |
---|---|
修改静态阈值规则 |
单击“操作”列的“修改阈值”。 |
删除静态阈值规则 |
|
启、停静态阈值规则 |
说明:
单条静态阈值规则不支持启、停操作。 |
搜索静态阈值规则 |
支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入关键字,单击后显示匹配对象。 |
查看告警 |
在已设的连续周期内,当某个资源的指标数据满足阈值条件时,产生一条阈值告警。 可在左侧导航栏中选择“告警> 告警列表”,在告警列表中查看该告警。 |
查看事件 |
在已设的连续周期内,当某个资源没有指标数据上报时,会产生一条数据不足的事件。 可在左侧导航栏中选择“告警> 事件列表”,在事件列表中查看该事件。 |