更新合辑(2023年)
版本:v3.2.2
新增功能
1.支持设置表生命周期策略
功能介绍
- 系统支持基于正则定时对符合正则要求的Hive表批量设置生命周期,当表或者分区生命周期到期后可自动进行过期数据清理,减少存储成本。
详细操作步骤
在「配置管理-表生命周期策略」模块中,可以新建、编辑、删除策略
新建策略时,需要填写策略名称、库表名正则表达式、更新方式、表/分区生命周期、外部表到期数据处理策略等
填写了库表名正则后,支持立即检测正则匹配的表结果,方便用户确认正则是否准确
策略配置完成后,系统会定时检测符合正则的表,按照策略规则设置对应的生命周期,后续就根据生命周期对数据做清理
注意事项
- 需要在安全中心分配配置管理权限的人员,才有对应操作权限
功能优化
1.设置Hive外表生命周期时,调整默认的清理规则
功能介绍
- 之前设置Hive外表生命周期到期后的数据处理策略默认选项是“仅删除表元数据”,本次优化后默认选项是“删除表元数据和目录文件”
2.支持筛选和查看引用同一hdfs路径的Hive外表
功能介绍
- 针对多张Hive表引用同一hdfs路径的情况,系统增加筛选功能快速筛选出这种情况的表,且支持浮框展示对应表明细
版本:v3.1.0
新增功能
1.支持S3存储下的表和分区生命周期管理功能
功能介绍:
- 在S3底层存储下,也可以支持表和分区的生命周期管理功能。
功能优化
1.修复在新流协创建工单失败的问题
功能介绍:
- 在新流协创建申请加入白名单的工单失败的问题修复。
版本:v3.0.9
功能优化
1.修复在多集群部署资产大盘等任务时,小文件治理数据均为空的问题
功能介绍:
- 修复在多集群部署资产大盘等任务时,小文件治理数据均为空的问题。
版本:v3.0.8
新增功能
1.对接安全中心的访问功能权限配置
功能介绍:
- 在安全中心项目级,产品页面中支持是否开放治理360的产品访问功能,若针对某角色或成员未授权"数据治理360"的产品页面访问权限,则进入治理360产品后将提示无权限。
功能使用注意事项:
- 需要在安全中心授权产品页面访问权限后,才可以针对治理360再授权其他功能的权限。
2.对外私有化部署支持多集群
功能介绍:
- 通过easyops部署数据治理360,原本仅支持单个集群的数据展示,优化为支持多个集群的数仓内容采集和产品功能展示。
功能优化
1.小文件治理文案更新
功能介绍:
- 小文件治理,合并最近修改时间xx天之前的数据文案进行更新。
2.hive表详情和生命周期诊断,筛选条件的重置功能优化
功能介绍:
- 对于表文件是否规范和表/分区是否设置生命周期的条件筛选,重置功能不生效的功能优化。
版本:v3.0.7
功能优化
1.离线开发提供的查询节点名称的接口进行了调整,治理360同步适配,优化展示节点名称的内容。
版本:v3.0.6
新增功能
1.存储分析,生命周期诊断,分区数据保留功能扩展
功能介绍:
- 在生命周期诊断模块,对分区表设置生命周期,若开启了分区数据保留功能,支持根据分区修改时间或按照模板匹配分区名称。
2.小文件治理,目录列表支持下载
功能介绍:
- 小文件治理,目录列表,支持csv和txt文件下载,仅下载当前页面的数据。
版本:v3.0.5
新增功能
1.导航栏支持项目描述
功能介绍:
- 新增对项目描述的支持,当该项目有描述信息时,鼠标悬浮将可查看项目描述内容;且在筛选下拉时可以看到描述
2.支持创建冷备的数据恢复任务,支持从OSS恢复至HDFS
功能介绍:
- 对于通过表/目录备份功能,备份到冷备空间的数据,支持创建数据恢复任务,将冷备空间的数据恢复到指定目录或源目录下。
功能介绍:
- 仅支持通过治理360平台中表/目录备份功能,备份到冷备空间的数据恢复,恢复数据量仅记录通过创建数据恢复任务而恢复的数据量;
- 创建数据恢复任务,选择的待恢复目录即为冷备空间中的目录内容,支持多选;
- 恢复目的地支持指定自定义目录或者源目录,源目录指的是在冷备到冷备空间之前原集群下的目录;
- 若存在同名目录,默认策略为覆盖,会删除掉目的地的重名目录;
- 对于OSS目录文件,要恢复到HDFS文件,需要先进行解冻,故在恢复任务进行启动时,会判断指定的目录是否处于冷冻状态,冷冻状态下的文件不支持恢复;
- 恢复任务运行成功后,可以在任务运维中心查看任务状态。
功能优化
1.健康诊断模块未设置生命周期规则优化
功能介绍:
- 在健康诊断模块,未设置生命周期,仅命中了未设置生命周期的表,若分区已经设置了生命周期,也应该属于设置生命周期的表,不应该在该规则内显示并扣分
2.数据备份任务创建人全部显示为了grp.mammut,优化显示为真实的创建人 优化备份空间有些分区比较多的目录,备份空间加载不出来申请治理的工单,支持在编辑页面直接点击处理完成
功能介绍:
- 备份空间有些分区比较多的目录,备份空间加载不出来
版本:v3.0.4
新增功能
1.对接安全中心管控使用权限
功能介绍:
- 在安全中心-角色管理的项目级别下,支持选择项目和个人针对数据治理360赋权;
2.数仓任务适配spark3.3的版本
3.生命周期诊断模块,支持数据库筛选条件
功能优化
1.数据治理360周报内容更新,优化邮件和popo通知显示内容
2.生命周期的Openapi接口更新,完善openapi使用文档
版本:v3.0.3
新增功能
1.目录备份,若为增量备份,支持选择起始时间
功能介绍:
- 若无起始时间,将根据备份天数和备份模板备份当前目录下满足条件的所有数据;若配置起始时间,则仅从起始时间开始对满足备份天数和备份模板的内容进行备份。
- 若备份模板选择了无,支持填写小时变量${hour}
2.支持批量小文件合并功能
功能介绍:
- 仅当前项目管理员、负责人和表负责人有操作权限,每次最多支持设置25张表,且仅分区表支持合并小文件。
3.生命周期功能优化
功能介绍:
根据表/分区的修改时间管理生命周期;
若对分区表设置生命周期,支持配置分区数据保留功能,防止分区生命周期到期后将所有分区数据删除。
4.对接新版流程协作与通知中心,加入白名单等操作生成的工单均通过新版流协进行查看和审批。
5.hiveonkudu、hive on arctic、hive on hbase类型的表增加展示处理
功能介绍:
- hive表详情中,表类型字段增加如上icon的显示内容,便于确定hive表属性;
- 推荐下线表中,去掉此种类型的表推荐;
6.推荐下线和生命周期诊断功能,一键恢复中,恢复历史展示表失败原因,增加失败详情内容
5.OPEN API新增批量修改表负责人接口
功能优化
1.健康诊断的安全健康分,支持个人授权下的权限判断
2.生命周期诊断和推荐下线模块,下线失败表清单以及删除失败表清单中,表负责人若原本为项目,保留项目内容的展示。
3.生命周期功能增强,取消对元数据分析服务的依赖同时放开对大文件目录删除的限制
4.小文件合并任务支持spark3
5.HIVE表下线失败报警邮件支持链接到资产页面不同模块(生命周期/推荐下线)
6.数仓表提供z-order字段
7.目录温热迁移、冷备增加代码鲁棒性,兼容猛犸侧任务被人为取消调度、删除