日志服务支持您为查询和分析结果设置告警监控规则,并在满足条件时发送告警通知。本文为您介绍快速设置日志告警的操作步骤。

背景信息

日志服务数据实验室提供模拟的网站访问日志及相关仪表盘(网站审计中心、网站访问中心等),便于您熟悉查询、分析、告警等操作。本案例以监控网站审计中心仪表盘中的统计图表请求成功率响应时间趋势为例,当请求成功率低于90%、响应时间高于60s时,触发告警,并通过短信方式通知给SLS运维组。

步骤一:创建用户和用户组

用户和用户组用于指定告警通知对象。例如创建用户(Alice和Kumer)、用户组(SLS运维组),并将Alice和Kumer加入到SLS运维组中。

  1. 登录日志服务控制台
  2. 在Project列表区域,单击目标Project。
  3. 在左侧导航栏中,单击告警图标。
  4. 单击打开告警中心
  5. 创建用户。
    1. 单击告警管理下拉框,选择用户管理
      用户管理
    2. 单击批量添加
    3. 待添加页签中,输入用户信息,单击确认

      重要参数说明和配置示例如下所示:

      #标识符,姓名,是否启用,国家号-手机号,可收短信,可接电话
      1001,Kumar,true,86-1381111*****,true,true
      1002,Alice,true,86-1381111*****,true,true
      参数 描述 示例
      标识符 用户唯一标识,不可重复。满足如下规则:
      • 以字母开头
      • 长度:5位~60位
      • 包含数字、字母、下划线(_)、短划线(-)和英文句点(.)的字符串。
      1001、1002
      姓名 用户姓名。

      姓名长度为1~20位字符且不能使用如下字符:

      "\$|~?&<>{}`'

      Kumar、Alice
      是否启用 是否允许日志服务给该用户发送告警通知。
      • true:允许发送。
      • false:不发送。
      true
      国家号-手机号 用户手机号码,其中国家号为数字形式,长度为1~4个字符。 86-1381111*****、86-1381112*****
      可收短信 是否允许日志服务给该手机号码发送短信通知。
      • true:允许。
      • false:不允许。
      true
      可接电话 是否允许日志服务给该手机号码发送语音通知。
      • true:允许。
      • false:不允许。
      true
  6. 创建用户组。
    1. 单击告警管理下拉框,选择用户组管理
    2. 单击创建
    3. 添加用户组对话框中,配置如下参数,单击确认

      重要参数说明和配置示例如下所示:

      参数 描述 示例
      标识符 用户组唯一标识,不可重复。满足如下规则:
      • 以字母开头
      • 长度:5位~60位
      • 包含数字、字母、下划线(_)、短划线(-)和英文句点(.)的字符串。
      group-01
      组名 用户组名称。

      长度不超过20且不包括如下特殊字符的字符串:

      \$|~?&<>{}`'"

      SLS运维组
      待添加成员 您已创建的用户。 Kumar、Alice
      已添加成员 已添加到用户组的用户。 Kumar、Alice
      启用 是否允许日志服务给该用户组发送告警通知。
      • 启用:允许。
      • 不启用:不允许。
      启用

步骤二:创建行动策略

行动策略用于控制告警通知的渠道和频率。例如创建一个网站日志告警行动策略,并指定阿里云账号121****6408相关的告警通过短信方式通知SLS运维组。

  1. 单击告警管理下拉框,选择行动策略
  2. 行动策略页签中,单击添加
  3. 添加行动策略对话框中,配置ID名称
    参数 描述 示例
    ID 行动策略的唯一标识,不可重复。 web-01
    名称 行动策略的名称。 网站日志告警行动策略
  4. 添加第一行动策略项。
    1. 第一行动列表页签中,单击action图标,创建行动组。
    2. 配置行动组。
      此处以短信渠道为例,触发告警后,日志服务向指定的手机号码发送短信通知。重要参数说明如下所示:
      说明 使用短信通知告警时,发送告警通知的手机号码是随机的,无法提供固定号码。
      action_policy重要参数说明和配置如下所示:
      参数 描述 示例
      渠道 告警通知的渠道。 短信
      接收人 选择您已创建的用户或用户组。 SLS运维组
      内容模板 选择告警内容模板。 SLS内置内容模板
      发送时段 选择发送告警通知的时间。 任意
    3. 单击行动组对话框对应的结束 图标,结束第一行动列表配置。
  5. 单击确认

步骤三:创建日志告警监控规则

告警监控规则用于监控日志查询和分析结果。例如监控统计图表请求成功率响应时间趋势,当请求成功率低于90%,响应时间高于60s时,触发告警。

  1. 日志存储 > 日志库页签中,单击目标Logstore。
  2. 在页面右上角,单击另存为告警
  3. 告警规则面板中,设置告警监控规则并单击确定

    必要参数说明和配置示例如下所示:

    创建监控告警规则
    参数 描述 示例
    规则名称 配置告警监控规则名称。 网站日志告警监控规则
    检查频率 根据您配置的频率对查询和分析结果进行检查。
    • 每小时:每小时检查一次查询和分析结果。
    • 每天:在每天的某个固定时间点检查一次查询和分析结果。
    • 每周:在周几的某个固定时间点检查一次查询和分析结果。
    • 固定间隔:按照固定间隔检查查询和分析结果。
    • Cron:通过Cron表达式指定时间间隔,按照该指定的时间间隔检查查询和分析结果。

      Cron表达式的最小精度为分钟,24小时制,例如0 0/1 * * *表示从00:00开始,每隔1小时检查一次。

    每天,00:00
    查询统计 配置查询和分析条件。您可以单击SQL编辑框,编辑查询和分析语句。

    请求成功率低于90%且响应时间高于60s时触发告警,故集合操作选择笛卡尔积

    • 0:选择网站审计中心仪表盘中的请求成功率图表。
    • 1:选择网站审计中心仪表盘中的响应时间趋势图表。
    触发条件 配置触发告警的条件。
    • 有数据:当查询和分析结果中存在数据时,触发告警。
    • 有特定条数据:当查询和分析结果中存在N条数据时,触发告警。
    • 有数据匹配:当查询和分析结果中存在数据满足告警表达式时,触发告警。
    • 有特定条数据匹配:当查询和分析结果中存在N条数据满足告警表达式时,触发告警。

    更多信息,请参见告警条件表达式语法

    有数据匹配,$0.success_ratio <90&&$1.平均响应时间\(s\) >60
    说明 当字段中存在括号()时,需使用反斜线(\)进行转义。
    告警严重度 配置告警级别。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于告警严重度的判断条件。
    • 简单配置:直接选择告警严重度,则表示通过该规则产生的告警都属于同一个级别。
    • 分条件配置:单击添加,分条件设置告警严重度。条件表达式详情请参见告警条件表达式语法
    中(Medium-6)
    添加标注 日志服务允许您给产生的告警添加非标识性属性,键值对格式。主要用于告警降噪控制和告警通知控制,即您在创建告警策略或行动策略时,可添加关于标注的判断条件。

    配置为动态值时,可以引用查询统计中的字段变量。

    • 标题(title):监控网站请求成功率和平均响应时
    • 描述(desc):请求成功率:${success_ratio},平均响应时间:${平均响应时间(s)}
    连续触发阈值 配置连续触发阈值。当累计的触发次数达到该值时,产生一条告警。不满足触发条件时不计入统计。
    说明 如果您配置了分组,则各个分组分开统计、分开触发告警。例如将查询和分析结果分为2个组(Gourp1和Gourp2),当Gourp1满足触发阈值时,产生一条告警;当Gourp2满足触发阈值时,也产生一条告警。
    1
    行动策略 选择您已创建的目标行动策略,用于控制告警通知渠道和频率。 网站告警行动策略
    重复等待 在重复等待时间内,重复的告警只触发一次行动策略,即只发送一次告警通知。 5分钟

步骤4:查看告警触发历史

创建告警监控规则后,日志服务会根据您创建的规则监控查询和分析结果,当满足条件时会执行行动策略产生告警。

  1. 在左侧导航栏中,单击告警图标。
  2. 单击打开告警中心
  3. 单击告警管理下拉框,选择监控规则中心
  4. 告警监控规则最新评估状态区域,查看已执行的告警监控规则。
    查看告警