日志服务支持通过云监控设置报警,当服务状态符合设置的报警规则时发送报警短信或邮件。您可以通过配置云监控中的日志监控报警规则,对日志收集状态、Shard资源使用状态等异常状态进行监控。
操作步骤
在云监控控制台的报警规则。在报警规则右上角单击创建报警规则。
页面,找到需要设置监控报警的Logstore,单击其右侧的- 关联资源。
- 选择产品。此处请选择日志服务。
- 选择资源范围。
您可以选择全部资源和Project维度。
- 资源范围选择全部资源,则产品下任何实例满足报警规则描述时,都会发送报警通知。
- 选择Project维度,则选中的实例满足报警规则描述时,才会发送报警通知。
- 选择地域。
- 选择Project和Logstore。您可以选择一个及以上的Project和Logstore。
- 设置报警规则。
您可以设置一条或多条报警规则。
- 配置通知方式。
- 通知对象。以联系人通知组级别发送通知。
- 报警级别。您可以按照需要选择Warning和Info级别,不同级别通知方式不同。
- 邮件主题和邮件备注。邮件主题默认为产品名称+监控项名称+实例ID。
- 报警回调。填写公网可访问的URL,云监控会将报警信息通过POST请求推送到该地址,目前仅支持HTTP协议。
配置完成后单击确认,完成监控策略配置。
示例
- 监控Logtail日志收集状态
Logtail客户端在运行过程中,可能会因设置不正确产生错误,例如某些日志格式不匹配、一个日志文件被重复收集等。为了及时发现这种情况,您可以对客户端解析失败行数、客户端错误次数等指标进行监控,以便及时发现这类问题。
该监控的监控规则设置如下:
您可以根据需要选择客户端解析失败行数或客户端错误次数选项,并配置统计周期、统计方法等规则项。除此之外,还可以根据Logtail其他错误项进行报警,第一时间发现各类日志收集过程中发现的问题。
下图示例表示:五分钟内客户端解析失败行数达到一行以上即发送报警,持续24H监控。 - 监控Shard资源使用状态
Logstore下每个Shard提供5MB/s(500次/s)写入能力,这个数值对于大部分用户而言都是足够的,在超过时日志服务会尽可能去服务(非拒绝)您的请求,但在高峰期间不保证超出部分的可用性。您可以设置Logstore出入流量报警以检测该情况。如果您的日志量非常大,需要添加更多Shard,请及时在控制台中进行调整。
- 设置流量预警
设置规则名称,并配置规则描述为原始数据大小。您可以在此处设置统计周期和统计方法,如需超过100GB/5Min后进行报警,请设置5分钟、总计、>=、102400,表示5分钟内总计流量超出102400Mbytes时进行报警。
- 设置服务状态报警
设置规则名称,并配置规则描述为服务状态。您可以在此处设置统计周期和统计方法,如您需要在5分钟内出现1个以上403服务状态时收到报警,请参考下图配置。
- 设置流量预警
- 监控Project的写入流量
每个Project默认写入限制为30 GB/分钟(原始数据大小),这个数值主要目的是为了保护用户因程序错误产生大量日志,在一般场景中对于大部分用户都是足够的。如果您的日志量非常大,可能会超过限制,可以通过工单联系我们调整大这个数值。
您可以按照以下示例设置Project Quota的监控策略。
该示例表示:当您的五分钟写入流量超过了150 GB时,为您发送提醒。