1.概述
Hadoop文件输入组件可将本地文本文件输出到Hadoop目标表,如cdh、impala、petabase等
Hadoop文件输入组件,文件设置页面:源文件路径:配置产品服务器得文件路径。列分割符,文件中用于进行列分割得符号。
Hdfs临时文件设置:Hdfs地址:数据源中配置得hdfs数据源。临时文件路径:文件传输过程中会在hdfs服务器上产生文件,该路径配置临时文件存放得路径。
字段列表页面选择数据源中的连接池即可,此处仅支持选择cdh、impala、petabase等大数据库,且连接池信息必需与文件设置中hdfs 数据源为同一套环境,否则执行会报错。
2.操作步骤
前置步骤:
1.产品工作目录中存放/workdir/lib/edi/hadoop 路径下放入对应的hadoop依赖jar。(需根据不同的大数据库存放对应的依赖jar包)。
2.数据源中新建大数据库连接池以及对应的hdfs数据源。大数据库必须与hdfs数据源为同一套环境。
某项目有100w数据需要写入到pb大数据库中,使用传统的表输入-表输出性能无法满足需求,故需要通过hadoop文件输入组件来提高数据传输的效率。
进入ETL任务设计页面,拖入表输入、平面文件输出、hadoop文件输入组件。
表输入组件选择100w数据的表,输出成文件,存储在服务器端。
Hdfs文件输入组件,选择对应的pb库与hdfs数据源。配置完成后,执行任务即可。
可以发现从关系型数据库到文件到pb库100w数据仅需1分钟多即可完成数据传输,相较于传统的表输入-表输出,传输效率上有很大的提升。
请先登录