批处理与交换任务部分组件支持spark大数据处理引擎,使用该引擎能够有效得提升海量数据的数据传输与数据处理的效率。用户新建批处理任务或者交换任务后,执行任务时选择Spark引擎作为计算引擎,程序将自动的将任务中支持Spark引擎的组件区间提交到Spark服务器上,利用Spark分布式计算的架构并发的进行数据处理,提高任务的执行效率。
【操作步骤】
前置步骤:在系统设置-参数配置-大数据环境配置中已配置好spark计算引擎,且可正常连通。
新建ETL任务,选择支持spark计算引擎的组件。
1.拖入支持spark计算引擎的组件后,配置对应的连接池信息,点击运行,勾选使用spark计算引擎。
2.运行完成后,在日志中可查看对应任务执行的信息,包括执行的spark模式、执行的资源分配。
注意:
1.系统设置里面配置了计算引擎,用户新建批处理任务或者交换任务,产品自动选择整个任务里面哪一段可以在spark引擎上计算。来提高性能。具体的分段规则:首先输入到输出为一段sql,在判定组件是否都可以在spark里面执行。规则满足走spark计算引擎,否则就是传统方式处理。
例如以下:
2.支持spark执行的组件在使用spark计算引擎执行或者运行到调试的过程中右上角会带有spark的图标。
3.支持spark计算引擎的组件清单:
输入输出组件:表输入组件、主题表输入组件、SQL输入组件、表输出组件、主题表输出组件
安全脱敏组件:脱敏组件、加解密组件
批量交换组件:批量交换表组件、批量交换到文件组件
转换组件:表达式组件、聚合组件、集合组件、连接组件、过滤组件、排序组件、清洗组件、行更新组件、计算字段组件、唯一标识组件、序号组件、删除组件
流程组件:路由组件、分支组件、校验组件
数仓组件:行转列组件、列转行组件、列转多行组件
其它组件:参数赋值组件、备注组件
大数据组件:HDFS文件输入组件、HDFS文件输出组件
请先登录