离线同步任务支持Hive数据源,支持该数据源的抽取(Reader)导入(Writer),当前支持的版本为:EasyData hive 2.1 - hadoop 2.9.2神策Hadoop2.6.0 - CDH5.12.1(只支持Reader)、星环TDH5.2.2(只支持Reader)、Sensors Data-Impala 3.2.18.6(只支持Reader)、1.1.0-CDH5.14.0(支持Reader和Writer)。

当前平台支持Hive2Hive跨集群传输场景,即当用户存在物理隔离、网络互通的数开生产集群和数开测试集群时,可通过Hive2Hive功能实现跨集群的Hive数据传输。在使用过程中,需要注意如下情况:

  • Hive作为数据来源端时,支持选择本集群下的Hive数据源、版本为神策Hadoop2.6.0 - CDH5.12.1星环TDH5.2.2Sensors Data-Impala 3.2.18.61.1.0-CDH5.14.0的Hive数据源。
  • Hive作为数据去向端时,支持选择本集群下的Hive数据源、版本为EasyData hive 2.1 - hadoop 2.9.2的Hive数据源、1.1.0-CDH5.14.0的Hive数据源。
说明:当前支持Hive2Hive的spark版本为2.3.2。当数据来源选择的Hive数据源为Sensors Data-Impala 3.2.18.6时,读取方式支持基于Impala JDBC读取Hive数据。

使用前提


在使用之前需要在“项目配置-项目中心(新)-数据源管理”完成该类型数据源的登记并测试通过(可在控制台的用户手册中查看具体登记详情信息),以及获取该数据源类型或数据的读权限(配置入口在安全中心-项目下的具体成员或角色)。

Hive作为数据来源&数据去向


Hive2Hive场景为例,在数据来源端选择本地Hive或者版本为神策Hadoop2.6.0 - CDH5.12.1、星环TDH5.2.2的Hive数据源,并选择需要进行读取的schema和表。

  • 过滤条件支持填写where过滤语句(不含where关键字),通常用作增量同步,支持系统参数和参数组参数。特殊字符替换根据实际情况进行填写。

在数据去向端选择本地Hive或者版本为EasyData hive 2.1 - hadoop 2.9.2的Hive数据源,并选择需要导入的schema和表。

  • 写入规则:支持INSERT INTOINSERT OVERWRITE两种。
    • INSERT INTO:增加数据。
    • INSERT OVERWRITE:先删除原有数据再新增数据。

当数据源选择版本为1.1.0-CDH5.14.0的Hive数据源时,默认读取方式为基于文件复制数据。

关于读取方式:

  • 基于Hive JDBC读取数据、基于Spark读取数据和基于Impala JDBC读取数据支持数据过滤,配置字段映射和数据脱敏等策略。
  • 基于文件复制数据不支持数据过滤,仅能读取全表或表的整个分区数据,不支持配置字段映射和数据脱敏等策略。
    • 如果读取方式为基于文件复制数据时,数据来源端和去向端的Hive表表结构须保持一致,且读取和写入的Hive分区级别须相等。

如果选中的Hive表为非分区表,则不展示分区配置项,默认读取全表;如果选中的Hive表为分区表,填写说明如下:

  1. 若分区值为空,则读取整表;若填写分区值,则读取指定分区的数据。
  2. 支持填写参数组参数和Azkaban参数。