睿码主数据
当前版本:2.7.3

HDFS组件

1.HDFS文件输入组件

hdfs输入组件是一个将hdfs服务器上的文件或压缩文件解析以供后续组件使用从文本文件中读取数据到任务中,和表输入组件一样作为输入端。与平面文件输入不同的是hdfs文件输入组件的输入端是hdfs数据源。

Hdfs文件输入组件主要配置有两个,字段列表,文件设置,其中文件设置主要配置hdfs数据源以及hdfs数据源上的文件路径,配置完成后,进入字段列表页面点击刷新按钮,会自动根据文件内容刷新出字段名称。

字段初始化后,拖入表输出组件,运行任务即可。这样hdfs服务器上的文件数据会根据设置的格式解析并存储到库表理。

注意点:文件的格式有text跟parquet 两种。Text 需要根据文件实际内容配置字符集、列分割符、文本限定符、起始行等属性。

Parquet格式,由于parquet文件只有整形、二进制、浮点型,所以在选择其他类型时会按二进制类型读取。

2.HDFS文件输出组件

hdfs输出组件是一个将前置组件的内容写入到hdfs服务器上的输出组件。
Hdfs文件输出组件主要配置内容有两个,分别是字段列表跟文件设置,其中字段列表会根据前置组件的字段信息自动初始化,文件设置主要配置输出的文件的hdfs服务器以及对应的路径,以及生成文件的格式,支持格式有:Text,Parquet。

与hdfs文件输入组件一致Text 需要根据文件实际内容配置字符集、列分割符、文本限定符、起始行等属性。Parquet格式的文件不需要配置这些属性仅需要配置压缩方式即可。配置完成后点击运行即可。

这样源端的数据库文件的数据便存储到hdfs服务器的指定路径下了。

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇Hadoop文件输入组件

下一篇HTTP接口组件&WebService接口

请先登录