1. 组件介绍
本章节主要介绍了如何使用边缘采集输入输出组件实时采集服务器上的日志数据。
前提条件
1、需要提前在采集服务器上安装边缘节点程序。
2、在使用边缘采集输入输出组件前,需要配置边缘节点的IP地址和端口号。具体配置方法可参照边缘节点管理。
目前边缘采集输入组件支持以下五种
(1)边缘采集Avro输入组件:可通过RPC接收Avro数据,将数据输入到内存中。
(2)边缘采集文件目录输入组件:可监听目录下的新文件,将数据输入到内存中,不支持断点续传。
(3)边缘采集Kafka输入组件:可从Kafka中读取数据,将数据输入到内存中。
(4)边缘采集文本输入组件:可监听目录或文件,将数据输入到内存中,支持断点续传。
(5)边缘采集Http输入组件:可接收外部HTTP客户端发送过来的数据,将数据输入到内存中。
边缘采集输出组件支持以下四种
(1)边缘采集HDFS输出组件:可从内存中接收FLUME编译器输入组件的数据,将数据通过RPC实现端到端的批量压缩数据传输。
(2)边缘采集Avro输出组件:可从内存中接收FLUME编译器输入组件的数据,将数据写入HDFS文件系统。
(3)边缘采集HBase输出组件:可从内存中接收FLUME编译器输入组件的数据,将数据写入Hbase时序数据库中。
(4)边缘采集Kafka输出组件:可从内存中接收FLUME编译器输入组件的数据,将数据写入Kafka指定主题中。
2. 使用场景
Story1:客户需要采集tomcat服务器实时产生的日志数据,并实时解析入库;为实时平台操作分析提供数据支撑。
操作步骤
1、边缘采集输入输出组件主要是实现了基于服务器应用日志进行实时更新,实时监听服务器的日志数据,当日志数据中有新增后,将新增的数据输出至内存区进行缓存,然后输出到目标中。系统操作流程如下:
操作入口:任务管理-新建实时任务-实时任务设计器
① 在ETL任务设计器分组“边缘采集输入组件”下拖出“边缘采集Avro输入组件”。双击该组件,配置采集的边缘节点、输入源的具体信息。
a. 边缘节点(默认使用内存方式缓存数据):选择系统设置-数据整合配置-边缘节点,系统根据配置的边缘节点程序,采集服务器上实时产生的日志数据。
b. b.主机名:监听主机名/IP
c.端口:绑定监听端口,该端口需未被占用
d:高级属性:扩展属性用来配置非必填项的其他属性,格式为:key=value。
②在ETL任务设计器分组“边缘采集输出组件”下拖出“边缘采集Avro输出组件”。,将之前配置好的“边缘采集Avro输入组件”连接此组件,然后双击“边缘采集Avro输出组件”,配置数据的输出目标信息。
a.主机名:绑定的主机名/IP
b.端口:监听端口
c:高级属性:扩展属性用来配置非必填项的其他属性,格式为:key=value。
③点击【运行】,系统跟据配置的边缘节点程序,即可实现实时采集服务器上产生的日志数据。
3. 注意事项
1、实时任务点击【运行】后,默认在后台一直运行,直到用户点击【取消】后才会终止。
2、采集组件和推送组件支持多对多的连线。
3、边缘采集组件仅支持相互之间进行使用。
请先登录