1.HDFS文件输入组件
hdfs输入组件是一个将hdfs服务器上的文件或压缩文件解析以供后续组件使用,从文本文件中读取数据到任务中,和表输入组件一样作为输入端。与平面文件输入不同的是hdfs文件输入组件的输入端是hdfs数据源。
Hdfs文件输入组件主要配置有两个,字段列表,文件设置,其中文件设置主要配置hdfs数据源以及hdfs数据源上的文件路径,配置完成后,进入字段列表页面点击刷新按钮,会自动根据文件内容刷新出字段名称。
字段初始化后,拖入表输出组件,运行任务即可。这样hdfs服务器上的文件数据会根据设置的格式解析并存储到库表理。
注意点:文件的格式有text跟parquet 两种。Text 需要根据文件实际内容配置字符集、列分割符、文本限定符、起始行等属性。
Parquet格式,由于parquet文件只有整形、二进制、浮点型,所以在选择其他类型时会按二进制类型读取。
2.HDFS文件输出组件
与hdfs文件输入组件一致,Text 需要根据文件实际内容配置字符集、列分割符、文本限定符、起始行等属性。Parquet格式的文件不需要配置这些属性仅需要配置压缩方式即可。配置完成后点击运行即可。
这样源端的数据库文件的数据便存储到hdfs服务器的指定路径下了。
请先登录