1.概述
将经过数据交换etl处理后的数据保存到大数据库impala或petabase等库中,和表输出组件一样作为输出端。
用户使用Hadoop输出组件,选择Hive和对应的表并选择不存在则创建选项,勾选分区选择分区字段,也可以勾选 分桶并选择分桶字段、排序字段,点击保存,执行时,自动创建表分区分桶。
2.操作步骤
前提条件:用户已部署HDFS服务器。
操作入口:任务管理>任务定义>新建批处理任务>大数据组件
1)新建Hadoop输出组件
打开任务编辑器,左侧组件面板中找到大数据分组栏,选择Hadoop输出组件拖拽到右边编辑区域。
2)界面设置
双击Hadoop输出组件,打开字段列表界面,选择源库表。
切换到HDFS设置界面,填写设置信息,点击确定。
Hadoop输出组件也支持扩展属性配置,如:表格式,编码等,可点击官方文档进行参考。
HDFS设置说明:
HDFS地址:目的连接池所在服务器上的HDFS对应地址,默认是127.0.0.1:8020
HDFS临时目录:指定源表的数据写入到hdfs上时的临时目录,如果是不存在的目录(因为最终在目标库中生成表 时,会将该数据文件从临时目录下移到表数据文件在系统中的默认路径下,一般默认是/user/tmp)
文件格式:支持TXT和PARQUET两种格式,TDH环境只支持TXT方式,其他环境:如CDH,则使用PARQUET
压缩方式:TXT文件默认不压缩,PARQUET文件支持几种常用的压缩方式:不压缩(默认)、SNAPPY、GZIP
列分隔符:按该分隔符来读取字段列表及字段值,取文件中的列分割符,以该字符对应的十六进制码表示,如\u0 001表示不可见字符,\u0009表示tab
1)分区表设置
表不存在则新建时,在分区字段列,可以勾选任意字段作为分区字段。如果未勾选分区字段,则新建的表为非分 区表;勾选了分区字段就是创建分区表。
选择已存在的表时,在分区字段列,会自动加载所有的分区字段。若选择的表不是分区表,则没有分区字段。表已存在时,分区字段列无法勾选。
2)外部表设置
用户点击外部表可创建外部表,并指定本地文件存储路径,然后直接使用load data local inpath加载本地文件数据到Hive中,然后在从Hive表抽取数据到其他数据库中。
【注意事项】
HADOOP输出组件支持将字段注释一起输出到目标表中。具体方式可参考表输出。
请先登录