2020亿信ABI

ETL组件-统计组件

1.1.1.1.1   采样组件
1.1.1.1.1.1      功能介绍

数据采样是对数据进行归约的一种常见方式,是数据分析和挖掘的重要步骤。

采样组件分成5种:

1、拆分采样;

1)         将数据根据百分比分成3份样本,3个百分比之和不能超过100%

2)         估计样本必须设置后置组件,验证样本和保留样本可以不设置;

3)         保留样本的数据量为总量减去验证样本和估计样本的数据量;

4)         抽取结果为随机抽取,各个样本之间数据不重复。

2、随机抽样;

1)         两种形式:1.固定返回一定数量的记录;2.返回一定占比的记录;

2)         通过设置“随机种子”的值来保证每次运行样本的一致性。

3、基础抽样;

1)         抽样方式:

1.         N个记录:返回表中的记录,直到指定的N记录。

2.         最后N个记录:返回从指定的N记录开始的表中的记录。

3.         跳过第N个记录:返回指定的N个记录之后的所有记录,跳过所有记录,包括N

4.         每个N记录中的1个:返回每N个记录的第一个记录。

5.         每个记录的随机1N机会中:随机选择每N个记录的记录。

2)         可设置分组字段,如设置了分组字段,则根据上面设置的抽样方式,在分组后的每个数据集中进行采样;

4、过采样;

1)         设置一个字段,基于该字段进行过采样;(该字段值一般都是一个二元值)

2)         设置该字段的少类样本值,即样本中该字段值占比较少的值;

3)         设置采样百分比,即样本抽取的百分比;

4)         采样结果应该是少类样本占抽样出来的样本的一半。

备注:该百分比不得超过少类样本在总样本中的占比一倍,如果用户设置超过一倍,少类样本没有足够数据抽取,则将少类样本全部抽取出来,并按照1:1的比例,抽取多类样本数据,并给出警告信息。即,如果100条数据中,少类样本有5条,用户设置采样比例为20%,则实际抽取为10条数据,5条少类样本和5条多类样本,并给出警告信息,告知用户由于少类数据不能达到抽取比例,所以实际抽取比例为10%

5、指定行采样;

1)         -2,含义为小于等于2,即输出第一行和第二行数据

2)         3,含义为等于3,即输出第三行数据

3)         17-20,含义为1720之间,包含17行和20行,即输出17行到20行数据

4)         50+,含义为大于等于50,即输出50行到最后一行数据

1.1.1.1.1.2      基础设置

1、在采样方式下拉框选择采样方式。

2、拆分采样:各样本后下拉框为该样本是输出组件,滑块表示该样本数量占比。

3、随机采样:可以设置“随机种子”的值来保证每次运行样本的一致性

4、基础采样:可设置分组字段,如设置了分组字段,则根据上面设置的抽样方式,在分组后的每个数据集中进行采样;

1.1.1.1.2   字段统计组件
1.1.1.1.2.1      功能概括

根据选择的字段类型,给出字段数据情况摘要,具体需要输出的类型可供选择,具体可选内容如下:

字符串型:

1)         数据类型:所选列的数据类型。

2)         空值:列中值为null的值,不包括空值。

3)         空值百分率:列中值为null的个数/总行数

4)         平均长度:列中值的平均长度。

5)         最长长度:列中最长值中的字符数。

6)         最长值:列中最长的值。

7)         最短(非空)长度:列中最短的字符数。

8)         最短值:列中最短的值。

9)         最小值:按字母顺序排序的列中的第一个字符串条目。

10)     最大值:按字母顺序排序的列中的最后一个字符串条目。

11)     唯一值:字段中唯一值的数量。

数值型:

1)         数据类型:所选列的数据类型。

2)         空值:列中值为null的值,不包括空值

3)         空值百分率:列中值为null的个数/总行数

4)         最小值:列中的最小值

5)         最大值:列中最大的值

6)         平均值:列中值的平均值

7)         唯一值:字段中唯一值的数量

8)         25百分位数:数据的下半部分或前半部分的中位数

9)         50百分位数:数据的中位数

10)     75百分位数:数据的上半部分或第二半的中位数

日期型:

1)         数据类型:所选列的数据类型。

2)         空值:列中值为null的值,不包括空值。

3)         非空值:列中非空条目的数量,包括空值。

4)         空值百分率:列中值为null的个数/总行数

5)         最小值:列中的最小值。

6)         最大值:列中最大的值。

7)         唯一值:字段中唯一值的数量。

1.1.1.1.2.2      基础设置

根据字段类型选择不同的统计方法,针对同一个字段也可以选择多个统计方式。

1.1.1.1.2.3      输出数据

field_name

pro_name

pro_caption

pro_value

字段名称即“col1”

字段摘要的名称即“ftype”

字段摘要的标题即统计类型

字段摘要值即“String”

 

附件列表

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇ETL组件-流程组件

下一篇ETL组件-数仓组件

请先登录