2020亿信ABI

ETL组件-转换组件

1.1.1.1.1   表达式组件
1.1.1.1.1.1      基本功能

支持通过函数表达式对前置组件各字段的数据进行处理,得到目的数据。

1.1.1.1.1.2      基本设置

表达式编辑器界面主要分为:左侧标签页、顶部操作栏、表达式编辑区、描述区、底部操作按钮5个部分。

l  左侧标签页:左侧有字段列表、函数、参数3个标签页。

l  字段列表:该页面以树形方式列出每个组件的字段信息(包括字段类型图标、名称、标题)

l  函数:以分组的形式罗列出所有支持的函数清单。如下图:

l  参数:如果在Etl编辑区定义了参数,该参数会在参数页面加载出来。双击任意参数会在编辑区以“<#=参数#>”形式插入该参数,如下图:

l  顶部操作栏:该操作栏是罗列了常用的几个操作符。

l  表达式编辑区:用于编辑表达式。双击左侧的字段、函数或参数,在编辑区的光标处进行插入。

l  描述区:点击左侧标签页的任意字段、函数、参数等,显示相关信息,如:名称、标题、描述等。

l  底部操作按钮:底部的“验证”按钮,可以验证表达式是否正确。如下图:

支持的函数可以查看表达式编辑器中的函数列表

 

1.1.1.1.2   聚合组件
1.1.1.1.2.1      基本功能

聚合组件主要完成的是分组聚合功能,将输入的数据进行分组,利用分组函数对数据进行处理,最后将数据写入目标,类似于数据库的group by操作。

  基本功能包括:

l  基本属性

l  字段列表

l  检查点

1.1.1.1.2.2      基本设置

l  聚合方法:界面选项中的聚合方法支持求和、求平均值、最大值、最小值、计数这5种。其余需要支持的,通过表达式算子及函数来实现。

l  界面字段列表显示的列:序号、字段名称、字段类型、字段长度、小数位数、表达式、分组字段、聚合方法

l  聚合方法下拉框除上述说的5种聚合方法,默认有个空选项。非分组字段,下拉框选项为空并不可操作。

l  如果是分组字段,选择了聚合方法,而又写了表达式,且内容冲突(如选择了聚合方法为求和,而表达式又写的count)以表达式为准。

l  菜单点击拾取按钮,弹框拾取字段列表对话框进行拾取。

1.1.1.1.3   集合组件

    可以将两个或多个前置组件获取到的结果集进行集合运算,支持求并集、交集、差集。

1.1.1.1.4   连接组件
1.1.1.1.4.1      基本功能

连接组件用于完成将多个表进行连接,将连接后的结果输出。连接组件的连接方式主要有以下几种:内连接、左连接、右连接、全连接,与数据库里表连接的方式类似,通过确定关联字段和关联条件,最后得到匹配连接后的结果集。连接的输入是两个以上,输出只有一个。

1.1.1.1.4.2      基本设置

l  连接方式:左连接、右连接、内连接、全连接

l  组件选项是根据连线来获得的。与连接组件相连的组件在下拉框选择范围。

l  若已填写了组件关联关系,切换主组件,下面的连接组件相应需要跟着变动。

1.1.1.1.5   过滤组件
1.1.1.1.5.1      基本功能

过滤组件主要完成的过滤功能,对前置组件的结果集进行筛选,类似于SQL语句中的where操作。

过滤组件分为简单过滤和自定义过滤两种。

1.1.1.1.5.2      基本设置  
1.1.1.1.5.3      组件说明

1、简单过滤

过滤组件默认使用简单过滤,针对字段类型不同,取值设置方式也不同:

a)         字段类型为日期或时间戳时,取值列显示日期下拉框,用于选择日期取值

b)         字段类型不是时间或日期时,取值列显示为文本输入框

操作符支持选择:=<><>>=<=IS NULL IS NOT NULL

操作符选择IS NULL 或者 IS NOT NULL 后,取值设置自动置灰

2、自定义过滤

通过写过滤条件来定义过滤条件,用法同之前的数据工厂过滤组件。

1.1.1.1.6   排序组件

排序组件用于完成对输入数据的排序操作,选择排序的字段列和排序方式,升序或者是降序。排序组件的输入和输出只能是一个。同时排序组件需要支持对空值记录的排序处理,如空值在前或者空值在后。

1.1.1.1.7   清洗组件

支持多种清洗规则对源数据进行清理,如字段合并拆分、字符串替换、日期格式转换、空值转换、记录去重、记录抽样等多种规则。  

 

1.1.1.1.8   脱敏组件
1.1.1.1.8.1      功能介绍

专门对数据进行脱敏处理。

脱敏方式包括:

1)         固定值替换:将所选字段中某个位置,如:任意位置、开头、结尾或者特定位置处的子字符串替换为新字符串;

2)         前后缀增补:在所选字段中搜索子字符串,搜索到后在该字符串的前面或者后面添加新字符串;

3)         数据模糊化:将所选字段(字符型)从指定起始位置开始进行指定长度的模糊化处理,模糊化后字段内容原字段内容将被替换为“*”;

4)         数据裁切:在所选字段中从第0个或者跳过一些字符,从第N个字符开始搜索给定字符串,搜索到后在字符串前面或者后面删除指定字符串个数;

5)         MD5处理:将选择的字段(字符型)进行MD5处理;数据库加密

6)          

7)         哈希处理:将选择的字段进行哈希处理;

8)         随机填充:将选择的字段从前或者从后开始填充,填充到指定长度;

9)         偏移值加密:将选择的字段先向右偏移(左侧补0的方式)指定位数,然后进行加密处理,加密算法支持:AESDES。由于用户权限不够,偏移值加密采用的是内存加密的方式。

1.1.1.1.8.2      基础设置

1)         脱敏组件用于对指定字段进行脱敏处理,具体脱敏规则见需求背景。

2)         脱敏组件只处理字符串类型的字段,在JS中已对字段类型进行了过滤。

3)         部分脱敏规则继承自清洗组件。

脱敏组件大体设置如下:

1.1.1.1.8.3      组件说明

1、脱敏组件只能连接一个输入组件,左侧树有具体的脱敏规则,每种脱敏规则对应右侧的设置界面,每个设置界面都会有字段选择以及其他的一些必要设置。

2、脱敏组件只能处理字符串;

3、脱敏组件输出字段值为脱敏后的字段,不会改变原字段的值。

1.1.1.1.9   行更新组件
1.1.1.1.9.1      功能介绍

行更新组件用于处理行间数据,将某一行的前后几行数据来计算填充某列数据。该组件常用于计算累计行数据。

1.1.1.1.9.2      基础设置

1.1.1.1.9.3      组件说明

1)         更新字段用于设置需要填充的列(必填项);

2)         起始行数据设置:

3)         初始行数为正整数,默认为0,设置后跳过前面几行进行处理;

4)         前面几行值不存在时,有3种设置:填充为NULL、填充为0或空值、复制字段值(非更新字段)。

5)         赋值表达式,支持OFFSETROW函数,关于函数示例可点击右侧帮助按钮查看;

6)         分组字段可多选(也可以不设置),设置之后根据分组字段对组内的数据执行更新操作;

7)         排序字段可多选(也可以不设置),设置后根据排序后的顺序来计算填充数据

初始化行数大于0 赋值表达式中有OFFSETROW函数时,排序字段不能为空。

1.1.1.1.9.4      OFFSETROW函数说明

OFFSETROW(field, [offset])函数用于取字段的前(后)几行数据。假设表输入组件(TableSource1)选择库表为:TEST_YE,原始数据如下:

结算日期(JSRQ_

收入(SR_

支出(ZC_

余额(YE_

 

20180101

5

2

0

 

20180102

2

1

0

 

20180103

3

4

0

 

如需计算当天余额,当天余额(YE_=当天收入(SR_-支出(ZC_+前一天余额(YE_),表达式即为:

TableSource1.SR_ - TableSource1.ZC_ + OFFSETROW(TableSource1.YE_,-1)

计算结果如下:

结算日期(JSRQ_

收入(SR_

支出(ZC_

余额(YE_

20180101

5

2

3

20180102

2

1

4

20180103

3

4

3

 

1.1.1.1.10            计算字段组件
1.1.1.1.10.1   基本功能

根据一个字段的内容来计算某条记录或某个字段是否输出。

1.1.1.1.10.2   基本设置

l  条件字段:选择要计算的字段名称,选项来源于前置组件。

l  取值字段:选择一个将要被输出的字段,选项也来源于前置组件。

l  分隔符:根据条件字段的计算结果过滤出来的取值字段值将根据该分割符连接为字符串。

l  返回参数:来源于etl过程的参数列表,执行完该组件之后,会将得到的字符串赋值给该参数。

l  有返回参数:有些应用中,不需要返回字符串给参数,只需要查出字段值计算为1的记录,可以通过该勾选项来进行控制。

1.1.1.1.11            唯一标识组件
1.1.1.1.11.1   功能介绍

生成GUID作为唯一标识,字段名称可编辑,字段类型为字符型。

1、    组件功能为输入数据新列名称增一个唯一标识字段,生成GUID

2、    生成GUID作为唯一标识,字段名称可编辑,字段类型为字符型。

1.1.1.1.11.2   基础设置

1、    列名称为必填项,是新添加字段的字段名,默认值为GUID_

2、    列标题可以为空,是新添加字段的表头,列标题默认值为“唯一标识”。

3、    本组件会在输入数据中新添加一列数据,数据类型为字符型。

1.1.1.1.12            序号组件

在输入数据新添加一个序号字段,支持设置起始值,依次递增,可设置字段类型与长度,类型包括字符串类型和数值类型。

1.1.1.1.13            删除组件
1.1.1.1.13.1   基本功能

根据前置组件的结果集来删除指定表的特定数据记录。

1.1.1.1.13.2   基本设置

1)  连接池、选择表:选择要删除数据的某张表和该表对应的连接池。

2)  选择:点击"选择"弹出字段选择弹框,和表输入的选择功能一样。

3)  字段来源:下拉选择列表,包括前置组件的所有字段名。(用来设置删除数据时和该组件字段的对应关系)。

1.1.1.1.13.3   功能说明

1、该组件就是通过选择本组件的字段和前置组建的字段进行联合,将选择的表中某个(或多个)字段值等于前置组件结果集中相应那个(或多个)字段的值的记录删除。

2、该组件只能有一个前置组件。

3、该组件必须设置至少一个映射关系。

 

附件列表

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇ETL组件-快速装载

下一篇ETL组件-流程组件

请先登录