离群值检查用于检查数据中有一个或几个数值与其他数值相比差异较大:旨在识别显著偏离数据集整体分布的异常数据。其支持拉依达法、格鲁布斯法等算法,通过界定合理数值范围,标记超出范围的极端值,可规避异常数据对后续分析的干扰。
指标表达式:不支持sumif、countif表达式。点击在弹出的对话框内输入指标表达式,或者点击在打开的公式展示页面中绘制指标关系。
校验方式:拉依达法(PAUTA)或格鲁布斯法(GRUBBS)。
拉依达法:又称3倍标准偏差法,简称3S法。当某一测量数据与其测量结果的算术平均值之差大于3倍标准偏差时,则该检查数据不符合规则。 格鲁布斯法:计算公式为T=|X质疑—X平均|/S,其中,S为这组数据的标准差。计算出结果之后,对比计算出的T与临界值表中的T,若计算出的T值比查表得到的相应值大,则视为不符合规则。格鲁布斯检验法的优点是在判断可疑值取舍的过程中,将正态分布中的两个最重要的参数——平均值和标准偏差引进来,故方法的准确性较高。 置信水平:如果校验方式为格鲁布斯法,需要选择置信水平。 |
场景演示:
针对CHANNEL_SALE_MONTH渠道月度销售表的利润总额进行离群值检查,利润总额=销售总额-成本,检查出其异常的数据
离群指标是利润额,检查表里并没有这个字段,但可以通过表达式加工的方式得到该字段值,然后针对加工后的字段进行离群值检查。
CHANNEL_SALE_MONTH (渠道月度销售表) | ||
CHANNEL_CODE | COST_AMT | SALE_AMT |
C001 | 20 | 120 |
C002 | 20 | 121 |
C003 | 22 | 121 |
C004 | 20 | 122 |
C005 | 110 | 120 |
质检结果 质检总数:5 错误数据:1(C005)
质检逻辑:4条数据的利润值分别是100、121、99、100、10,其均值是85.3,根据PAUTA算法3σ以外的数据会被认定为是离群数据,10满足离群判定条件,从而C005被质检为错误数据。 | ||
请先登录