成本分析下的存储分析分为四个功能模块,分别为:Hive表详情、推荐下线表、生命周期诊断和目录分析。

Hive表详情

在当前项目下,针对表总数、表总存储、净新增表数量、净新增表存储量和修改表数量、访问表数量均进行了数量统计,可以一目了然的对项目下的资产进行了解。

表总数页签下,下面同时展示近30天的表趋势图和表所属主题域的Top5,点击查看详情,还可以查看详细的库表的访问次数。

表总存储页签下,可以查看近30日表存储量的趋势图,右侧也会有表存储的Top5,点击查看详情,可以查看每张表的存储量。

净新增表数量页签下,会展示净新增表趋势、新增表趋势和删除表趋势的近30日表数量的折线图,且对新增表所属主题域Top也进行了汇总,点击查看详情,可查看新增表所属的主题域和表分层的具体内容。

净新增表存储量页签下,展示净新增表趋势、新增表趋势和删除表趋势的近30日表存储的折线图,对新增表存储Top也进行了汇总,点击查看详情,支持弹窗查看表归属的主题域和表分层以及存储量等信息。

修改表数量页签下,展示近30日表数量和修改表次数的折线图,右侧也会展示表修改次数Top5,点击查看详情,可了解每张表的修改次数。

访问表数量页签下,展示近30日表数量和表访问次数的折线图,右侧汇总展示表访问次数Top5,点击"查看详情",可查看每张表的访问次数。

在Hive表详情功能模块下方,有Hive表详情列表,支持根据库名、表类型、负责人等快速筛选定位,列表展示表新增存储量、表生命周期、分区生命周期、分区数、新增文件数等详细内容,在列表中,支持批量选择,可修改表负责人(只有当前项目管理员/负责人和表负责人才可修改,其他角色功能键置灰,支持Hive on kudu, Hive on HBase)。

同时,在Hive表详情列表中,支持快速筛选出表文件是否符合规范的表,对于不符合规范的表,不支持在平台进行下线操作或设置生命周期。规范的目录文件需满足以下条件:1、分区路径处于表路径下;2、表路径未被其他表引用。

推荐下线表

下线表趋势图展示最近30天确认下线表和推荐下线表数量变化趋势图。

推荐下线表占比展示最新一次统计的推荐下线表占全部表的比例。

推荐下线表页面下方提供推荐下线列表,可在列表中查看推荐下线的表,并支持对推荐下线表进行下线、加入白名单等操作。

参数信息 说明
状态 建议下线。建议下线遵循表下线规则:扫描周期内的文件open次数(仅读取,不含写入)=0,表访问次数=0,日均表引用数=0。
推荐下线强度 强推荐表示各项指标均符合下线规则,弱推荐则有可能该表存在写操作,建议均二次确认后,再执行下线。
确认下线 点击确认下线后,后台会对该表数据进行删除操作,默认会先移入灰度空间,7天之后正式清空。
加入白名单 若表虽满足推荐下线,但仍需要保存,可加入白名单,加入白名单的表不会再被推荐。
说明:
1.仅当前项目管理员、负责人和表负责人或者在安全中心-功能权限中赋权的用户有操作权限;
2.若申请加入白名单的工单处于审批状态,则不允许操作;
3.加入白名单后,将不作为推荐下线表显示,可在白名单列表中移出;
4.申请加入白名单,默认需要当前用户的上级领导审批,如未对接OA系统则由项目负责人进行审批。

对于下线表支持一键恢复功能,在一键恢复按钮旁展示可恢复的表数量。一键恢复功能仅能恢复被移动到灰度空间下的推荐下线表,灰度空间内的表仅保存7天。对于恢复后表的负责人默认为当前项目,支持单个或者批量恢复,从灰度空间执行恢复的表记录,可以在恢复历史中查看,支持根据表名搜索。

在表分析的推荐下线表模块,若表虽然属于推荐下线表,但数据比较重要,不做下线操作,可将表加入白名单,加入白名单的表将不再被推荐,加入白名单的表会在白名单列表中呈现,项目管理员/负责人和表负责人有权利将表移出白名单。

在推荐下线表中,若操作确认下线,对于下线失败的表,提供列表查看,展示下线失败的具体的表和失败原因等内容。

生命周期诊断

对于表设置生命周期,项目管理员/负责人对当前项目下所有表均有权限,其他角色,只有表负责人对自己的表有权限设置。

下线存储量趋势:当前项目下,因生命周期到期而下线的表和分区存储量的趋势图。

生命周期时间分布:当前项目下,表和分区的生命周期时间分布图,若均设置生命周期,则周期=Min(表生命周期,分区生命周期)。

生命周期诊断页面下方提供表生命周期列表,支持表的生命周期设置(支持批量)、永久保存、一键恢复、删除失败表清单等功能。

永久保存功能和白名单功能比较相似,加入到其中的表/分区的生命周期将变成永久且不会进行资产健康的评分。

说明:
1.仅未设置生命周期的表/分区支持添加至永久保存列表;
2.加入永久保存列表后,资产健康分将不再扣除此类未设置生命周期表的分数,可在永久保存列表中移出;
3.申请加入白名单,默认需要当前用户的上级领导审批,如未对接OA系统则由项目负责人进行审批。

对于因为生命周期到期而删除的表,会先进入灰度空间,此时支持通过一键恢复功能对表进行恢复。灰度空间仅保留7天,恢复后的表负责人会默认变为执行恢复的操作人,此时表的生命周期会认为是永久。

点击“一键恢复”按钮进入功能页面,在页面中包含“可恢复表”以及“恢复历史”两个页签。在可恢复表中,支持根据删除时间、表负责人、状态和表名称进行搜索定位,执行恢复之后,在恢复历史中,会记录表的历史记录,可查看表是否恢复成功。对于系统删除失败的表,提供删除失败表清单功能,可查看具体的失败表明细,支持下载。

设置生命周期

支持对Hive内部表和外部表单个或者批量设置生命周期。

其中,分区数据保留的"按照模板匹配分区名称"的功能,目前仅支持在单个分区表上设置生命周期时可选择,批量弹窗中暂不支持。

若防止分区生命周期到期后将所有分区数据删除,可开启分区数据保留功能。若按照分区修改时间,则可以设置保留几个分区;若按照模板匹配分区名称,则要求分区命名中有"年、月、日"格式,会根据选择的保留模板,设置保留每年度每月最后一天等分区数据,如果系统提供的模板不符合分区的命名格式,模板也可以选择"其他",支持通过${year}、${month}、${day}变量自定义分区名称的模板,但要求必须有年月日的变量。

修改表生命周期时需要注意:

  1. 对于分区表,可修改表和分区生命周期,对于非分区表,仅可修改表生命周期;
  2. 生命周期到期后,对于内部表,系统将自动删除表元数据和目录文件;
  3. 对于外部表,系统将根据所选策略进行删除;
  4. 外部表的目录文件,需满足以下条件才会删除:(1)分区路径处于表路径下;(2)表路径未被其他表引用。

目录分析

在目录分析功能模块,支持查看存储总量和日净增存储量相关内容。

存储总量页签下,左侧展示最近30天,当前项目下数据存储量变化趋势,右侧展示当前项目下,最新一次统计的数据存储量排名前5的目录,点击查看详情,可查看目录具体的存储内容。

日净增存储量(当前项目下,最新一次统计的净增数据存储量)页签下,左侧展示最近30天,当前项目下净增数据存储量变化趋势,右侧展示当前项目下,最新一次统计的近30天净增数据存储量排名前5的目录,点击查看详情,可查看目录具体的存储内容。