日志服务支持通过云监控设置报警,当服务状态符合设置的报警规则时发送报警短信或邮件。您可以通过配置云监控中的日志监控报警规则,对日志收集状态、Shard资源使用状态等异常状态进行监控。

操作步骤

在云监控控制台的云服务监控 > 日志服务页面,找到需要设置监控报警的Logstore,单击其右侧的报警规则。在报警规则右上角单击创建报警规则

  1. 关联资源
    1. 选择产品。此处请选择日志服务
    2. 选择资源范围

      您可以选择全部资源Project维度

      • 资源范围选择全部资源,则产品下任何实例满足报警规则描述时,都会发送报警通知。
      • 选择Project维度,则选中的实例满足报警规则描述时,才会发送报警通知。
    3. 选择地域
    4. 选择ProjectLogstore。您可以选择一个及以上的Project和Logstore。
    图 1. 关联资源
  2. 设置报警规则

    您可以设置一条或多条报警规则。

    1. 填写规则名称
    2. 填写规则描述

      您需要在此处定义您的监控策略,选择需要的监控项目,并为其设定阈值。超出该值后云监控会发送报警通知。

      各个监控项的含义请参考云监控指标,统计方法请参考概览

    3. 选择alarm_type。默认为任意alarm_type
    4. 设置通道沉默时间。指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。
    5. 生效时间。为您的监控策略选择生效时间,设定后仅在该时段内执行监控报警策略。
    图 2. 设置报警规则
  3. 配置通知方式
    1. 通知对象。以联系人通知组级别发送通知。
    2. 报警级别。您可以按照需要选择WarningInfo级别,不同级别通知方式不同。
    3. 邮件主题邮件备注。邮件主题默认为产品名称+监控项名称+实例ID。
    4. 报警回调。填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
    图 3. 通知方式

配置完成后单击确认,完成监控策略配置。

示例

  • 监控Logtail日志收集状态

    Logtail客户端在运行过程中,可能会因设置不正确产生错误,例如某些日志格式不匹配、一个日志文件被重复收集等。为了及时发现这种情况,您可以对客户端解析失败行数、客户端错误次数等指标进行监控,以便及时发现这类问题。

    该监控的监控规则设置如下:

    您可以根据需要选择客户端解析失败行数客户端错误次数选项,并配置统计周期、统计方法等规则项。除此之外,还可以根据Logtail其他错误项进行报警,第一时间发现各类日志收集过程中发现的问题。

    下图示例表示:五分钟内客户端解析失败行数达到一行以上即发送报警,持续24H监控。
    图 4. 监控Logtail日志收集状态
  • 监控Shard资源使用状态
    Logstore下每个Shard提供5MB/s(500次/s)写入能力,这个数值对于大部分用户而言都是足够的,在超过时日志服务会尽可能去服务(非拒绝)您的请求,但在高峰期间不保证超出部分的可用性。您可以设置Logstore出入流量报警以检测该情况。如果您的日志量非常大,需要添加更多Shard,请及时在控制台中进行调整。
    • 设置流量预警
      设置规则名称,并配置规则描述原始数据大小。您可以在此处设置统计周期和统计方法,如需超过100GB/5Min后进行报警,请设置5分钟总计>=102400,表示5分钟内总计流量超出102400Mbytes时进行报警。
      图 5. 设置流量预警
    • 设置服务状态报警
      设置规则名称,并配置规则描述服务状态。您可以在此处设置统计周期和统计方法,如您需要在5分钟内出现1个以上403服务状态时收到报警,请参考下图配置。
      图 6. 设置服务状态报警
  • 监控Project的写入流量

    每个Project默认写入限制为30 GB/分钟(原始数据大小),这个数值主要目的是为了保护用户因程序错误产生大量日志,在一般场景中对于大部分用户都是足够的。如果您的日志量非常大,可能会超过限制,可以通过工单联系我们调整大这个数值。

    您可以按照以下示例设置Project Quota的监控策略。

    该示例表示:当您的五分钟写入流量超过了150 GB时,为您发送提醒。
    图 7. 监控Project的写入流量