2020亿信ABI

ETL组件-统计组件

顶() 分享评论(0) 编辑

分享到 腾讯微博开心001 人人网新浪微博 QQ空间微信印象笔记

1.1.1.1.1 采样组件

1.1.1.1.1.1 功能介绍

数据采样是对数据进行归约的一种常见方式，是数据分析和挖掘的重要步骤。

采样组件分成5种：

1、拆分采样；

1) 将数据根据百分比分成3份样本，3个百分比之和不能超过100%；

2) 估计样本必须设置后置组件，验证样本和保留样本可以不设置；

3) 保留样本的数据量为总量减去验证样本和估计样本的数据量；

4) 抽取结果为随机抽取，各个样本之间数据不重复。

2、随机抽样；

1) 两种形式：1.固定返回一定数量的记录；2.返回一定占比的记录；

2) 通过设置“随机种子”的值来保证每次运行样本的一致性。

3、基础抽样；

1) 抽样方式：

1. 前N个记录：返回表中的记录，直到指定的N记录。

2. 最后N个记录：返回从指定的N记录开始的表中的记录。

3. 跳过第N个记录：返回指定的N个记录之后的所有记录，跳过所有记录，包括N。

4. 每个N记录中的1个：返回每N个记录的第一个记录。

5. 每个记录的随机1在N机会中：随机选择每N个记录的记录。

2) 可设置分组字段，如设置了分组字段，则根据上面设置的抽样方式，在分组后的每个数据集中进行采样；

4、过采样；

1) 设置一个字段，基于该字段进行过采样；（该字段值一般都是一个二元值）

2) 设置该字段的少类样本值，即样本中该字段值占比较少的值；

3) 设置采样百分比，即样本抽取的百分比；

4) 采样结果应该是少类样本占抽样出来的样本的一半。

备注：该百分比不得超过少类样本在总样本中的占比一倍，如果用户设置超过一倍，少类样本没有足够数据抽取，则将少类样本全部抽取出来，并按照1:1的比例，抽取多类样本数据，并给出警告信息。即，如果100条数据中，少类样本有5条，用户设置采样比例为20%，则实际抽取为10条数据，5条少类样本和5条多类样本，并给出警告信息，告知用户由于少类数据不能达到抽取比例，所以实际抽取比例为10%。

5、指定行采样；

1) -2，含义为小于等于2，即输出第一行和第二行数据

2) 3，含义为等于3，即输出第三行数据

3) 17-20，含义为17到20之间，包含17行和20行，即输出17行到20行数据

4) 50+，含义为大于等于50，即输出50行到最后一行数据

1.1.1.1.1.2 基础设置

1、在采样方式下拉框选择采样方式。

2、拆分采样：各样本后下拉框为该样本是输出组件，滑块表示该样本数量占比。

3、随机采样：可以设置“随机种子”的值来保证每次运行样本的一致性

4、基础采样：可设置分组字段，如设置了分组字段，则根据上面设置的抽样方式，在分组后的每个数据集中进行采样；

1.1.1.1.2 字段统计组件

1.1.1.1.2.1 功能概括

根据选择的字段类型，给出字段数据情况摘要，具体需要输出的类型可供选择，具体可选内容如下：

字符串型：

1) 数据类型：所选列的数据类型。

2) 空值：列中值为null的值，不包括空值。

3) 空值百分率：列中值为null的个数/总行数

4) 平均长度：列中值的平均长度。

5) 最长长度：列中最长值中的字符数。

6) 最长值：列中最长的值。

7) 最短（非空）长度：列中最短的字符数。

8) 最短值：列中最短的值。

9) 最小值：按字母顺序排序的列中的第一个字符串条目。

10) 最大值：按字母顺序排序的列中的最后一个字符串条目。

11) 唯一值：字段中唯一值的数量。

数值型：

1) 数据类型：所选列的数据类型。

2) 空值：列中值为null的值，不包括空值

3) 空值百分率：列中值为null的个数/总行数

4) 最小值：列中的最小值

5) 最大值：列中最大的值

6) 平均值：列中值的平均值

7) 唯一值：字段中唯一值的数量

8) 第25百分位数：数据的下半部分或前半部分的中位数

9) 第50百分位数：数据的中位数

10) 第75百分位数：数据的上半部分或第二半的中位数

日期型：

1) 数据类型：所选列的数据类型。

2) 空值：列中值为null的值，不包括空值。

3) 非空值：列中非空条目的数量，包括空值。

4) 空值百分率：列中值为null的个数/总行数

5) 最小值：列中的最小值。

6) 最大值：列中最大的值。

7) 唯一值：字段中唯一值的数量。

1.1.1.1.2.2 基础设置

根据字段类型选择不同的统计方法，针对同一个字段也可以选择多个统计方式。

1.1.1.1.2.3 输出数据

field_name	pro_name	pro_caption	pro_value
字段名称即“col1”	字段摘要的名称即“ftype”	字段摘要的标题即“统计类型”	字段摘要值即“String”

文档内容仅供参考
如果您需要解决具体问题，还可以登录亿信社区
在提问求助板块提问，30分钟内帮您解决问题

如果您认为本词条还有待完善，请编辑

上一篇ETL组件-流程组件

下一篇ETL组件-数仓组件

还有问题没解决？去亿信社区求助大神吧进入社区 >

请先登录

创建词条

全部产品

2020亿信ABI

ETL组件-统计组件

1.1.1.1.1 采样组件

1.1.1.1.1.1 功能介绍

1.1.1.1.1.2 基础设置

1.1.1.1.2 字段统计组件

1.1.1.1.2.1 功能概括

1.1.1.1.2.2 基础设置

1.1.1.1.2.3 输出数据

附件列表