1.1.1.1.1 参数赋值
可以将前置组件查询到的值,赋给指定的参数。如果前置组件查询出多行返回值,只会将第一行的值赋给参数。
参数值可以设置输入的字段、表达式、宏等。
1、每次点击“新增”,都会新增一个参数(不重复),参数值取的是默认值。新增条数限制:<= 参数总数。超出限制,给出提示,如下:
2、切换参数名时,如果跟其中一条数据的参数名重复,会自动对换:
3、右键初始化后,该组件会默认将ETL编辑器中所有的参数加载出来。
l
1.1.1.1.2 主成分组件
1.1.1.1.2.1 主成分分析说明
主成分分析(Principal Component Analysis,PCA),是一种统计方法。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法。
1.1.1.1.2.2 基本功能
本组件可根据数据库表中选取指定字段来进行PCA计算,所选字段可以是数值型和字符型的,当为数值型时,进行的是降维计算;但是当是字符型时,处理方法为把每一条数据当做一个维度来计算。
1、 主成分分析组件用于从数据库表中选择字段进行计算。
2、 主成分分析组件是单向组件,只能与其它组件的输出端进行连接。
1.1.1.1.2.3 基本设置
1、表设置可以选择连接池,并且新建数据库表名。
2、字段设置只能选择前置字段中的字符型、数值型字段;提取特征值百分比在1~99之间;字段前缀有默认值。
1.1.1.1.3 哑变量组件
1.1.1.1.3.1 基本功能
本组件是将不能定量分析的字符串类型数据,根据它的取值范围,转化为多列的0、 1数值矩阵,方便数据进行下一步的定量,需要做如下设置:
l 选择需要量化的字段
1.1.1.1.3.2 功能概述
学历 |
性别 |
收入 |
大专 |
男 |
2000 |
本科 |
女 |
2000 |
大专 |
女 |
3000 |
硕士 |
男 |
3000 |
将不能够定量处理的变量量化,如学历、性别对收入的影响,性别不能进行数据的处理,具体转化如下:
转换为定量的如下表:
学历-大专 |
学历-本科 |
学历-硕士 |
性别-男 |
性别-女 |
收入 |
1 |
0 |
0 |
1 |
0 |
2000 |
0 |
1 |
0 |
0 |
1 |
2000 |
1 |
0 |
0 |
0 |
1 |
3000 |
0 |
0 |
1 |
1 |
0 |
3000 |
全部转换为定量的数值之后,就可以进行统计计算了。
1.1.1.1.3.3 基本设置
1.1.1.1.4 标准化组件
对数值型字段进行标准处理,处理方式为:新数据=(原数据-均值)/标准差。
1.1.1.1.5 归一化组件
对数值型字段进行标准处理,处理方式为:新数据=(原数据-最小值)/(最大值-最小值)。
1.1.1.1.6 备注组件
1) 备注组件,可以在编辑器中添加备注。
2) 备注组件不参与计算。
请先登录