报警配置入口


入口1:任务列表-操作栏-报警

入口2:任务详情-任务名栏右侧-报警

报警配置


用户可以根据需要对不同的任务设置不同的报警规则,系统提供了三种默认的报警规则 (任务失败,FailOver,数据滞留延迟),用户可以自行添加报警规则 (输入QPS,输入QPS,CheckPoint,用户自定义延迟,滞留数据量,业务指标,反压)

指标说明

数据滞留延迟 = 数据进入 Easystream 时间 - 数据进入 Kafka 时间戳

用户自定义延迟 = 数据进入 Easystream 的时间 - 用户自定义字段的时间

数据滞留量 = 数据堆积在 Kafka 中待处理的数据量

业务指标,用户将 Flink 任务计算的某些业务指标(如统计金额异常的订单数)通过 metric reporter 上报后,可以通过平台配置告警,业务指标如何开发详见 业务指标开发页面

报警接受方式,支持多种类型的报警方式,如短信,电话,邮件等,对于商业化客户也可以联系平台根据用户的需求进行自定义扩展,如企业微信。若用户的企业微信群、钉钉群等渠道已对接平台告警组件,则支持向群聊中发送告警信息并@指定用户。

个人报警接收人,可以添加多个报警接收人,也可以配置报警组,报警组需要在项目管理(新)中配置,值班组需要在任务运维中心配置。勾选了个人报警接收渠道的任务需配置个人报警接收人。

主备通知分级策略:1)指是否根据选取的值班组配置的”主备通知分级策略”发送报警;2)开关关闭时,仅向值班组的主值班人发送报警;3)开关打开时,在报警间隔时间点持续触发报警时,系统按照所选策略,会依次发送给对应顺序的人。当在实时运维-任务报警记录页开启响应报警开关后,任务发送报警时仅会发送给响应人,响应报警到期后,下一次再向值班组发送报警时,会按照值班组配置的”主备通知分级策略”发送给第一级通知人。 示例:选择“主-备”,首次发送报警时间是00:00,报警间隔为5分钟,且固定报警间隔检测时任务均满足报警规则。若在00:10前未开启报警抑制或关闭报警功能,则00:05发送报警时会发送给备值班人员,00:10发送报警时会发送给主值班人员。后续若一直未开启报警抑制或关闭报警功能,则循环上面的报警。若在00:07开启响应报警开关并设置响应时间为10分钟,则00:10和00:15发送报警时会发送给响应人,由于00:17响应报警已到期,00:20发送报警时会发送给主值班人。期间,如开启报警抑制或关闭报警功能,则不再发送报警。

群聊报警接收群,勾选了群聊报警接收渠道的任务需配置群聊报警接收群。如需开启请联系平台。

  • 报警接收群渠道:选择要接收告警的群聊渠道。
  • 报警接受群:选择该渠道要接收告警的群聊名称。
  • 报警接收人:选择告警消息要@的用户,默认选中该任务的创建人。

报警抑制,用户可以设置一个周期内任务触发报警规则后不报警,在解决线上问题的过程很有用。

关闭报警,用户可以选择将任务的报警关闭,关闭报警后用户将收不到任何关于这个任务的报警,这在任务开发,或者任务失败没时间处理的时候很有用。