设置云监控告警规则 - 日志服务_编程技术网-程序员技术内容聚合平台

（在说正事之前，我要推荐一个福利：你还在原价购买阿里云、腾讯云、华为云服务器吗？那太亏啦！来这里，新购、升级、续费都打折，能够为您省60%的钱呢！2核4G企业级云服务器低至69元/年，点击进去看看吧>>>)

日志服务支持通过云监控设置报警，当服务状态符合设置的报警规则时发送报警短信或邮件。您可以通过配置云监控中的日志监控报警规则，对日志收集状态、Shard资源使用状态等异常状态进行监控。

操作步骤

在云监控控制台的云服务监控 > 日志服务页面，找到需要设置监控报警的Logstore，单击其右侧的报警规则。在报警规则右上角单击创建报警规则。

关联资源。
1. 选择产品。此处请选择日志服务。
2. 选择资源范围。
  您可以选择全部资源和Project维度。
  - 资源范围选择全部资源，则产品下任何实例满足报警规则描述时，都会发送报警通知。
  - 选择Project维度，则选中的实例满足报警规则描述时，才会发送报警通知。
3. 选择地域。
4. 选择Project和Logstore。您可以选择一个及以上的Project和Logstore。
图 1. 关联资源
设置报警规则。
您可以设置一条或多条报警规则。
1. 填写规则名称。
2. 填写规则描述。
  您需要在此处定义您的监控策略，选择需要的监控项目，并为其设定阈值。超出该值后云监控会发送报警通知。
  
  各个监控项的含义请参考云监控指标，统计方法请参考概览。
3. 选择alarm_type。默认为任意alarm_type。
4. 设置通道沉默时间。指报警发生后如果未恢复正常，间隔多久重复发送一次报警通知。
5. 生效时间。为您的监控策略选择生效时间，设定后仅在该时段内执行监控报警策略。
图 2. 设置报警规则
配置通知方式。
1. 通知对象。以联系人通知组级别发送通知。
2. 报警级别。您可以按照需要选择Warning和Info级别，不同级别通知方式不同。
3. 邮件主题和邮件备注。邮件主题默认为产品名称+监控项名称+实例ID。
4. 报警回调。填写公网可访问的URL，云监控会将报警信息通过POST请求推送到该地址，目前仅支持HTTP协议。
图 3. 通知方式

配置完成后单击确认，完成监控策略配置。

示例

监控Logtail日志收集状态
Logtail客户端在运行过程中，可能会因设置不正确产生错误，例如某些日志格式不匹配、一个日志文件被重复收集等。为了及时发现这种情况，您可以对客户端解析失败行数、客户端错误次数等指标进行监控，以便及时发现这类问题。

该监控的监控规则设置如下：

您可以根据需要选择客户端解析失败行数或客户端错误次数选项，并配置统计周期、统计方法等规则项。除此之外，还可以根据Logtail其他错误项进行报警，第一时间发现各类日志收集过程中发现的问题。

下图示例表示：五分钟内客户端解析失败行数达到一行以上即发送报警，持续24H监控。

图 4. 监控Logtail日志收集状态
监控Shard资源使用状态
Logstore下每个Shard提供5MB/s（500次/s）写入能力，这个数值对于大部分用户而言都是足够的，在超过时日志服务会尽可能去服务（非拒绝）您的请求，但在高峰期间不保证超出部分的可用性。您可以设置Logstore出入流量报警以检测该情况。如果您的日志量非常大，需要添加更多Shard，请及时在控制台中进行调整。
- 设置流量预警
  设置规则名称，并配置规则描述为原始数据大小。您可以在此处设置统计周期和统计方法，如需超过100GB/5Min后进行报警，请设置5分钟、总计、＞＝、102400，表示5分钟内总计流量超出102400Mbytes时进行报警。
  
  图 5. 设置流量预警
- 设置服务状态报警
  设置规则名称，并配置规则描述为服务状态。您可以在此处设置统计周期和统计方法，如您需要在5分钟内出现1个以上403服务状态时收到报警，请参考下图配置。
  
  图 6. 设置服务状态报警
监控Project的写入流量
每个Project默认写入限制为30 GB/分钟（原始数据大小），这个数值主要目的是为了保护用户因程序错误产生大量日志，在一般场景中对于大部分用户都是足够的。如果您的日志量非常大，可能会超过限制，可以通过工单联系我们调整大这个数值。

您可以按照以下示例设置Project Quota的监控策略。

该示例表示：当您的五分钟写入流量超过了150 GB时，为您发送提醒。

图 7. 监控Project的写入流量