1.1.1.1.1 采样组件
1.1.1.1.1.1 功能介绍
数据采样是对数据进行归约的一种常见方式,是数据分析和挖掘的重要步骤。
采样组件分成5种:
1、拆分采样;
1) 将数据根据百分比分成3份样本,3个百分比之和不能超过100%;
2) 估计样本必须设置后置组件,验证样本和保留样本可以不设置;
3) 保留样本的数据量为总量减去验证样本和估计样本的数据量;
4) 抽取结果为随机抽取,各个样本之间数据不重复。
2、随机抽样;
1) 两种形式:1.固定返回一定数量的记录;2.返回一定占比的记录;
2) 通过设置“随机种子”的值来保证每次运行样本的一致性。
3、基础抽样;
1) 抽样方式:
1. 前N个记录:返回表中的记录,直到指定的N记录。
2. 最后N个记录:返回从指定的N记录开始的表中的记录。
3. 跳过第N个记录:返回指定的N个记录之后的所有记录,跳过所有记录,包括N。
4. 每个N记录中的1个:返回每N个记录的第一个记录。
5. 每个记录的随机1在N机会中:随机选择每N个记录的记录。
2) 可设置分组字段,如设置了分组字段,则根据上面设置的抽样方式,在分组后的每个数据集中进行采样;
4、过采样;
1) 设置一个字段,基于该字段进行过采样;(该字段值一般都是一个二元值)
2) 设置该字段的少类样本值,即样本中该字段值占比较少的值;
3) 设置采样百分比,即样本抽取的百分比;
4) 采样结果应该是少类样本占抽样出来的样本的一半。
备注:该百分比不得超过少类样本在总样本中的占比一倍,如果用户设置超过一倍,少类样本没有足够数据抽取,则将少类样本全部抽取出来,并按照1:1的比例,抽取多类样本数据,并给出警告信息。即,如果100条数据中,少类样本有5条,用户设置采样比例为20%,则实际抽取为10条数据,5条少类样本和5条多类样本,并给出警告信息,告知用户由于少类数据不能达到抽取比例,所以实际抽取比例为10%。
5、指定行采样;
1) -2,含义为小于等于2,即输出第一行和第二行数据
2) 3,含义为等于3,即输出第三行数据
3) 17-20,含义为17到20之间,包含17行和20行,即输出17行到20行数据
4) 50+,含义为大于等于50,即输出50行到最后一行数据
1.1.1.1.1.2 基础设置
1、在采样方式下拉框选择采样方式。
2、拆分采样:各样本后下拉框为该样本是输出组件,滑块表示该样本数量占比。
3、随机采样:可以设置“随机种子”的值来保证每次运行样本的一致性
4、基础采样:可设置分组字段,如设置了分组字段,则根据上面设置的抽样方式,在分组后的每个数据集中进行采样;
1.1.1.1.2 字段统计组件
1.1.1.1.2.1 功能概括
根据选择的字段类型,给出字段数据情况摘要,具体需要输出的类型可供选择,具体可选内容如下:
字符串型:
1) 数据类型:所选列的数据类型。
2) 空值:列中值为null的值,不包括空值。
3) 空值百分率:列中值为null的个数/总行数
4) 平均长度:列中值的平均长度。
5) 最长长度:列中最长值中的字符数。
6) 最长值:列中最长的值。
7) 最短(非空)长度:列中最短的字符数。
8) 最短值:列中最短的值。
9) 最小值:按字母顺序排序的列中的第一个字符串条目。
10) 最大值:按字母顺序排序的列中的最后一个字符串条目。
11) 唯一值:字段中唯一值的数量。
数值型:
1) 数据类型:所选列的数据类型。
2) 空值:列中值为null的值,不包括空值
3) 空值百分率:列中值为null的个数/总行数
4) 最小值:列中的最小值
5) 最大值:列中最大的值
6) 平均值:列中值的平均值
7) 唯一值:字段中唯一值的数量
8) 第25百分位数:数据的下半部分或前半部分的中位数
9) 第50百分位数:数据的中位数
10) 第75百分位数:数据的上半部分或第二半的中位数
日期型:
1) 数据类型:所选列的数据类型。
2) 空值:列中值为null的值,不包括空值。
3) 非空值:列中非空条目的数量,包括空值。
4) 空值百分率:列中值为null的个数/总行数
5) 最小值:列中的最小值。
6) 最大值:列中最大的值。
7) 唯一值:字段中唯一值的数量。
1.1.1.1.2.2 基础设置
根据字段类型选择不同的统计方法,针对同一个字段也可以选择多个统计方式。
1.1.1.1.2.3 输出数据
field_name |
pro_name |
pro_caption |
pro_value |
字段名称即“col1” |
字段摘要的名称即“ftype” |
字段摘要的标题即“统计类型” |
字段摘要值即“String” |
请先登录