任务运维中心能够辅助任务运维人员进行离线任务管理和实例运维的工作,帮助运维人员提高运维效率,及时发现问题并提供诊断建议。

当前,任务运维中心页面主要包括运维大盘、实例运维、任务列表以及报警模块四部分。运维配置页面提供了值班组和基线的管理。

核心功能概述


基线运维

基线运维功能是通过设定几条时间线(即基线)和线上任务进行关联。当这些任务的实例或者上游实例运行失败、或者实例预计产出时间超过对应的时间线时,系统会触发报警并通知给值班人员。值班人员负责统一处理和跟进所有异常,从而确保所有问题得到解决。

冻结池

冻结池功能可用于源头数据发现异常时,及时冻结指定的任务及所有下游任务,并自动终止未完成的实例,防止异常数据向下扩散。目前该功能仅开放给项目负责人和管理员。

实例运维大盘

通过实例运行概况、值班运维概况、基线完成时间等模块,展示实例的运维大盘数据。

周期实例列表及实例详情

周期实例列表用来展示周期实例的运行列表,支持实例重跑、终止等功能。

实例详情可展示实例的基本运行信息、节点信息、关键路径、产出影响等,支持查看日志、前往编辑等快捷操作。

任务列表

任务列表支持查看已提交上线的所有任务列表,以及任务的内部节点清单,支持对任务设置基线、负责人和任务优先级,支持筛选和搜索操作。其中任务优先级功能支持基于任务血缘依赖,分钟级进行优先级传递,目前主要用于加速器功能中任务的筛选。

值班组和基线管理

任务运维中心中支持对值班组和基线的管理,在一个项目-集群下,可配置多个值班组,每个值班组中可添加组员,并设置每日值班人员。项目-集群下的基线也可以设置多条,并将基线归属到值班组中。当基线上挂载的任务实例或上游任务实例执行超时或者执行失败,导致基线上的任务无法在设置的时间前全部完成时,系统会通知相关的值班人员。

实例执行状态说明


实例的状态包括未就绪、就绪、运行中、成功、终止、失败等,具体流转顺序如下:

任务运维中心将实例的完整生命周期分为实例准备、实例提交和实例运行三个阶段,在不同阶段针对实例的不同状态提供诊断说明和建议,详见:实例诊断