大数据存储 - Hive - 《数据传输用户手册-v3.39.0》

使用前提
Hive作为数据来源&数据去向

离线同步任务支持Hive数据源，支持该数据源的抽取（Reader）和导入（Writer），当前支持的版本为：EasyData hive 2.1 - hadoop 2.9.2、神策Hadoop2.6.0 - CDH5.12.1（只支持Reader）、星环TDH5.2.2（只支持Reader）、Sensors Data-Impala 3.2.18.6（只支持Reader）、1.1.0-CDH5.14.0（支持Reader和Writer）。

当前平台支持Hive2Hive跨集群传输场景，即当用户存在物理隔离、网络互通的数开生产集群和数开测试集群时，可通过Hive2Hive功能实现跨集群的Hive数据传输。在使用过程中，需要注意如下情况：

Hive作为数据来源端时，支持选择本集群下的Hive数据源、版本为神策Hadoop2.6.0 - CDH5.12.1、星环TDH5.2.2、Sensors Data-Impala 3.2.18.6、1.1.0-CDH5.14.0的Hive数据源。
Hive作为数据去向端时，支持选择本集群下的Hive数据源、版本为EasyData hive 2.1 - hadoop 2.9.2的Hive数据源、1.1.0-CDH5.14.0的Hive数据源。

说明：当前支持Hive2Hive的spark版本为2.3.2。当数据来源选择的Hive数据源为Sensors Data-Impala 3.2.18.6时，读取方式支持基于Impala JDBC读取Hive数据。

使用前提

在使用之前需要在“项目配置-项目中心（新）-数据源管理”完成该类型数据源的登记并测试通过（可在控制台的用户手册中查看具体登记详情信息），以及获取该数据源类型或数据的读权限（配置入口在安全中心-项目下的具体成员或角色）。

Hive作为数据来源&数据去向

以Hive2Hive场景为例，在数据来源端选择本地Hive或者版本为神策Hadoop2.6.0 - CDH5.12.1、星环TDH5.2.2的Hive数据源，并选择需要进行读取的schema和表。

过滤条件支持填写where过滤语句（不含where关键字），通常用作增量同步，支持系统参数和参数组参数。特殊字符替换根据实际情况进行填写。

在数据去向端选择本地Hive或者版本为EasyData hive 2.1 - hadoop 2.9.2的Hive数据源，并选择需要导入的schema和表。

写入规则：支持INSERT INTO和INSERT OVERWRITE两种。
- INSERT INTO：增加数据。
- INSERT OVERWRITE：先删除原有数据再新增数据。

当数据源选择版本为1.1.0-CDH5.14.0的Hive数据源时，默认读取方式为基于文件复制数据。

关于读取方式：

基于Hive JDBC读取数据、基于Spark读取数据和基于Impala JDBC读取数据支持数据过滤，配置字段映射和数据脱敏等策略。
基于文件复制数据不支持数据过滤，仅能读取全表或表的整个分区数据，不支持配置字段映射和数据脱敏等策略。
- 如果读取方式为基于文件复制数据时，数据来源端和去向端的Hive表表结构须保持一致，且读取和写入的Hive分区级别须相等。

如果选中的Hive表为非分区表，则不展示分区配置项，默认读取全表；如果选中的Hive表为分区表，填写说明如下：

若分区值为空，则读取整表；若填写分区值，则读取指定分区的数据。
支持填写参数组参数和Azkaban参数。