任务开发

步骤一:从左侧导航栏选择【开发运维】-【离线开发】进入离线开发页面。

步骤二:选择已创建的cookbook文件夹,右键选择“新建文件夹”。

步骤三:输入文件夹名称dim,点击“确定”完成配置。

步骤四:选择已创建的dim文件夹,右键选择“新建任务”。

步骤五:在弹出的对话框中填写任务名称dim_customer_cus_info_df,其它配置可选择默认。

步骤六:将SQL节点拖入到画布中,命名为dim_customer_cus_info_df_1,将SQL节点和虚拟节点进行连接。

步骤七:双击SQL节点,在SQL编辑器中,复制粘贴如下代码。其中【库名】部分请按实际项目Hive库名进行替换。

INSERT
  OVERWRITE TABLE 库名.dim_customer_cus_info_df partition (dt = '${azkaban.flow.1.days.ago}')
select
  cus_id,
  cus_name,
  age,
  address,
  ip,
  id_card
from
  库名.ods_cus_info_df
where
  dt = '${azkaban.flow.1.days.ago}';

步骤八:全选任务,点击“运行”进行测试。

步骤十一:在弹出的对话框中,使用默认配置点击“运行”即可。

此时可在【结果】中查看测试的结果。

运行成功后,任务显示测试通过标记。

步骤十二:重复以上步骤一到十一完成维表dim_product_item_info_df的任务开发,复制粘贴如下代码。记得修改库名

INSERT
  OVERWRITE TABLE 库名.dim_product_item_info_df partition (dt = '${azkaban.flow.1.days.ago}')
select
  item_id,
  item_name,
  brand
from
  库名.ods_item_info_df
where
  dt = '${azkaban.flow.1.days.ago}';

调度设置

步骤一:返回dim_customer_cus_info_df任务,点击【调度设置】开启定时调度。

步骤二:因dim_customer_cus_info_df任务需等待上游mysql2hive_ods_cus_info_df任务运行成功后才能运行,也就是本任务依赖于上游mysql2hive_ods_cus_info_df任务。对于该场景,需配置【添加任务依赖节点】:

步骤三:在依赖任务中选择mysql2hive_ods_cus_info_df,在依赖节点中选择【末级节点】,并点击“添加”按钮。

效果如下:

其余配置项本案例不做修改,如有疑问请查阅用户手册。

步骤四:确认无误后,点击“保存并提交全部”按钮完成提交。

步骤五:重复以上步骤一到四完成 dim_product_item_info_df 任务的调度设置。注意:该任务的调度配置需选择依赖于上游任务mysql2hive_ods_item_info_df的末级节点

动态脱敏

步骤一:从左侧导航栏选择【数据治理】 - 【安全中心】进入安全中心页面。

步骤二:从左侧导航栏选择【数据脱敏】,动态脱敏可通过【数据识别】对指定表或者整库进行数据扫描,也可使用【数据脱敏】直接配置,此案例使用【数据脱敏】直接配置,数据扫描功能在静态脱敏案例中体现。

步骤三:点击“新增动态脱敏”

步骤四:进行如下配置,并点击“确定”。

步骤五:点击弹窗的确定按钮,等待30s后可查看数据脱敏情况。

步骤六:点击左侧导航栏【开发运维】 - 【自助分析】,新建query并选择hive数据源。

select * from库名.ods_cus_info_df where dt = '${azkaban.flow.1.days.ago}';

步骤七:复制并运行如下代码,可看到id_card字段脱敏效果。

步骤八:配置动态脱敏的数据可通过配置白名单的方式查看已脱敏字段的真实信息,从左侧导航栏选择【数据治理】 - 【安全中心】进入安全中心页面。

步骤九:点击【数据脱敏】 - 【白名单配置】,接着点击“新增白名单”按钮。

步骤十:进行如下配置,并点击“确定”,随后出现弹窗继续点击“确定”。

步骤十一:重复步骤六、七,检测白名单是否生效,出现如下结果。