整体说明


页面上支持可视化的表更新操作,包括新建离线表、离线表新增字段和表克隆。入口在左上角辅助功能区。

离线表新增字段


离线表新增字段当前支持对Hive表的非分区字段进行新增,在离线开发模块中进行新增字段操作会直接添加字段,不会进入工单审批流程,因此需要谨慎操作。

单击离线表新增字段进入配置页面,选择需要增加字段的表所在的库,找到相应的表,进行字段添加。

新建离线表


新建离线表当前支持通过表单模式SQL模式创建表。

表单模式


下图为表单模式界面:

通过表单模式进行表创建,需要完成如下参数的配置:

参数信息 说明
数据库 选择新建表的Hive库。
表名称 输入表的名称。
表描述 输入表的描述信息。
Impala同步 选择Impala同步的开启状态,如果当前存项目内存在Impala集群,建议开启。开启后元数据会自动同步到Impala元数据中,在自助分析中即可用Impala执行查询。
类型 支持设置外部表和内部表。
1. 选择外部表时需要配置HDFS路径;
2. 选择内部表时可配置表生命周期,如果是分区表还可配置分区生命周期
模式 支持手动添加字段从内容中解析两种模式。从内容中解析支持从JSON、access、自定义分隔符、正则匹配四种数据格式中对表字段进行解析。
分区表 开启后可配置分区字段。
存储格式 支持TEXTFILE、SEQUENCEFILE、ORC、PARQUET、AVRO。

从内容中解析

目前支持的内容解析方式有四种:JSON、access、自定义分隔符和正则匹配。

数据来源 数据格式 格式样例
自定义 JSON {col:1,col2:2}
自定义 access 10.65.190.18 -- [22/Apr/2017:00:00:00 +0800] "GET /index.html HTTP/1.0" 200 7992
自定义 自定义分隔符,需要设置列分隔符,此处为逗号 col1value,col2value,col3value
自定义 正则匹配,正则表达式:(.+)#(.+)\$(.+)&& 1#Tom$hz&&
  • JSON结果如下图:

  • access结果如下图:

  • 自定义分隔符结果如下图:

  • 正则匹配结果如下图:

说明: 除了JSON外,其它三种可根据解析出来的参考进行字段名设置。

SQL模式


该模式下可通过输入DDL语句进行建表。

表克隆


可通过表克隆功能在不同的库创建一张同名表,进行克隆操作前,需要进行克隆检验操作,检验内容包括:目标库是否存在和待克隆同名的表以及当前用户是否有目标库建表权限。

注意: 表克隆仅克隆表结构,并不克隆表内容。