亿信ABI
当前版本:5.6.1

Hadoop文件输入组件

1.概述

Hadoop文件输入组件可将本地文本文件输出到Hadoop目标表,如cdh、impala、petabase等

Hadoop文件输入组件,文件设置页面:源文件路径:配置产品服务器得文件路径。列分割符,文件中用于进行列分割得符号。

Hdfs临时文件设置:Hdfs地址:数据源中配置得hdfs数据源。临时文件路径:文件传输过程中会在hdfs服务器上产生文件,该路径配置临时文件存放得路径。

字段列表页面选择数据源中的连接池即可,此处仅支持选择cdh、impala、petabase等大数据库,且连接池信息必需与文件设置中hdfs 数据源为同一套环境,否则执行会报错。

2.操作步骤

前置步骤:

1.产品工作目录中存放/workdir/lib/edi/hadoop 路径下放入对应的hadoop依赖jar。(需根据不同的大数据库存放对应的依赖jar包)。

2.数据源中新建大数据库连接池以及对应的hdfs数据源。大数据库必须与hdfs数据源为同一套环境。

某项目有100w数据需要写入到pb大数据库中,使用传统的表输入-表输出性能无法满足需求,故需要通过hadoop文件输入组件来提高数据传输的效率。

进入ETL任务设计页面,拖入表输入、平面文件输出、hadoop文件输入组件。

表输入组件选择100w数据的表,输出成文件,存储在服务器端。

Hdfs文件输入组件,选择对应的pb库与hdfs数据源。配置完成后,执行任务即可。

可以发现从关系型数据库到文件到pb库100w数据仅需1分钟多即可完成数据传输,相较于传统的表输入-表输出,传输效率上有很大的提升。

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇Hadoop输出组件

下一篇HDFS组件

请先登录