当前仅支持批量创建指定来源与去向的离线同步任务,数据来源可选:MySQL、DB2、HANA、DM、SQLServer、PostgreSQL、DDB(DBI)、DDB(QS)、Oracle、Hive、VastBase G100、TDSQL。数据去向可选:Hive、FTP。

功能入口


在数据传输页面,单击左侧菜单栏中离线同步任务,进入任务管理页面。在该页面中,单击新建任务或者批量新建任务,进行离线同步任务配置。

使用流程


第一步:选择数据来源与去向

配置批量离线同步任务同样需要配置数据来源信息和去向信息。

数据来源端配置

1.单击数据来源下拉框,选择需要抽取的数据源数据类型。
2.任务名称自动填写,默认为“xxx2hivendi${source table}”。
3.配置数据源,在下拉框选择数据源与数据库。
4.选择数据源后,来源表栏自动显示数据源内所有表,可使用搜索框进行手动选择,也可单击选择未生成任务的表快速勾选没有生成过同步任务的表,同时系统还支持通过表名文件匹配的方式匹配相应的表。

说明:

  1. xxx为数据来源,Hive为数据去向,${source table}是源表名参数,按照“数据来源2数据去向_ndi_源表名”的格式批量生成任务名称。
  2. 取消所有选中的表支持反选功能。
  3. 表名文件匹配:将要匹配的表名写入到text文件中并用换行符进行分隔(最多支持1000行)并上传。
5.设置导出方式,支持全量与增量,默认为全量。
6.设置特殊字符替换,必填项。 数据去向端配置

首先,选择数据源类型与数据源名称。

(1)去向为Hive:

  • 生成表设置,支持批量生成数据去向表。
  • 单击去向Hive库下拉菜单,选择Hive库。
  • 配置写入规则,当前支持insert overwrite、insert into,默认为insert overwrite。
  • 配置写入方式,当数据去向表为非分区表时,系统默认写入到表中;当数据去向表为分区表时,系统自动填写分区字段同时默认写入到分区中,分区值可下拉选择系统内置时间参数。

(2)去向为FTP:

  • 数据目录:输入目录路径,支持填写系统参数和参数组参数
  • 目录文件名:支持系统生成指定文件名。选择系统生成,则系统生成随机文件名称;选择指定文件名,支持填写常量、系统参数和内置变量:${source table}。其中${source table}表示来源表表名。
    注意:升级数据传输-v3.5.1版本后新建的任务,生成文件时默认拼接文件扩展名作为文件名称后缀。为不影响历史任务的正常运行,升级数据传输-v3.5.1版本前已创建的任务生成文件时默认不拼接文件扩展名作为文件名称后缀。如无需拼接,可在任务-高级配置-自定义参数或节点参数中添加参数:appendFileExtension,值设为false。
  • 文件格式:支持text、json、csv、excel、csv(旧)
  • 原始字符集:当文件格式为csv、txt、dbf时,支持原始字符集的配置。
  • 同名文件:针对同名文件支持覆盖或者跳过处理策略
  • 生成校验文件:任务运行成功后会在目录下生成校验文件,文件名为“数据文件名称.ok”,如果已经存在则覆盖相关文件。校验文件默认包含:写入行数、写入数据量。支持通过高级设置自定义属性target.flagFileSuffix、target.flagFileItems、target.flagFileSeparator,用来分别配置文件名后缀、检验文件包含内容和检验文件内容分隔符
  • 前置操作:支持删除重命名三种选项。如果选择删除,需要填写需要删除的文件名;如果选择重命名,则需要填写旧文件路径和新文件路径
  • 后置操作:支持删除重命名三种选项。如果选择删除,需要填写需要删除的文件名;如果选择重命名,则需要填写旧文件路径和新文件路径
第二步:高级配置

支持流量控制、来源表结构变更策略、数据脱敏、任务参数四项高级配置。

配置完成后,点击“批量创建任务”按钮,开始批量新建离线同步任务。

第三步:完成

任务创建完成后,可查看任务名称、源表、目标表和生成状态。若生成状态为创建成功,代表任务已创建成功。