任务状态与启停
对于一个任务,有以下状态,其对应的含义以及可以执行的操作为:
1. 未启动: 任务从未启动过。可以启动任务,但是无法从 Checkpoint 启动。
2. 启动中: 任务处于启动中,可能正在向集群提交,也可能在等待集群分配资源。
3. 运行中: 任务被提交到集群上,并且成功的分配到了资源。可以通过任务页面打开 Flink 的Web界面。运行中的任务可以通过单击停止按钮对其进行停止操作。
4. 停止中: 任务正在停止,平台正在通知 Flink JobManager 停止任务,如果用户指定了停止前保存 SavePoint,此时任务也可能正在生成 SavePoint。
5. 停止: 任务成功停止。
6. 启动失败: 任务在启动过程中遇到问题导致无法成功的提交到集群上,可能的原因是集群资源不足,也可能是任务本身的问题导致或者是启动过程过长最终超时导致平台终止启动行为。具体的原因用户可以在任务日志-启动日志中查看。任务在启动失败的时候会收到一次启动失败的报警。
7. 运行失败: 任务在集群上运行过程中遇到问题,导致任务运行失败,并且无法通过计算集群本身的HA策略恢复。当遇到这种状态时,用户可以通过页面右上方的任务页面,打开任务在计算集群的页面查询最终的日志信息。任务在运行失败状态时会每隔一定间隔时间就会收到一次报警,用户可以通过关闭报警,或单击停止按钮将任务状态置为停止来关闭报警。
8. 运行结束: 如果用户提交的任务是一个批任务,那么当任务正常的执行完成并优雅地退出后,任务状态会被设置为运行结束,运行结束的任务可以重新启动任务。
9. 启动等待中: 当前平台上进行启动的任务数量超过平台提交服务的启动线程上限时,任务进入排队队列中等待被启动,任务状态被设置为启动等待中,此时用户可操作任务取消启动。
10. 停止等待中: 当前平台上进行停止的任务数量超过平台提交服务的停止线程上限时,任务进入排队队列中等待被停止,任务状态被设置为停止等待中,此时用户可操作任务取消停止。
11. 未知: 当前平台未能成功从 Yarn 集群获取任务的运行状态时,任务展示为未知状态,此时用户不可进行任何启停操作,请等待片刻,平台将尝试重新获取任务状态。若任务长时间处于未知状态,请检查 Yarn 集群状态。