睿治
当前版本:2.7.2

离群值检查

1. 概述

离群值检查用于检查数据中有一个或几个数值与其他数值相比差异较大:旨在识别显著偏离数据集整体分布的异常数据。其支持拉依达法、格鲁布斯法等算法,通过界定合理数值范围,标记超出范围的极端值,可规避异常数据对后续分析的干扰。

以销售订单为例,个别订单的数据差异较大,影响分析决策,通过离群值检查检查销售订单基本信息表的数据的差异,标记超出范围的极端值,规避异常数据对分析的干扰。

2. 操作步骤

1.在质量模型中添加主题表“销售订单基本信息表”,定义关键字字段、数据期、数据级次,没有可不定义。

2.在质量模型规则库中新建规则“离群值检查”,在规则编辑页面,选择上述主题表“销售订单基本信息表”,校验商品数量是否有异常数据,输入指标表达式“ENTITY2.PRODUCTSUM”,校验方法有拉依达法和格鲁布斯法,下面以拉依达法为例。以下为两种校验方法的简单介绍。

拉依达法:又称3倍标准偏差法,简称3S法。当某一测量数据与其测量结果的算术平均值之差大于3倍标准偏差时,则该检查数据不符合规则。

格鲁布斯法:计算公式为T=|X质疑—X平均|/S,其中,S为这组数据的标准差。计算出结果之后,对比计算出的T与临界值表中的T,若计算出的T值比查表得到的相应值大,则视为不符合规则。格鲁布斯检验法的优点是在判断可疑值取舍的过程中,将正态分布中的两个最重要的参数——平均值和标准偏差引进来,故方法的准确性较高。

置信水平:如果校验方式为格鲁布斯法,需要选择置信水平。

该规则的参数如下:

Ø 代号:系统将根据规则类型系统自动生成,也可能自定义输入。

Ø 分组:选择规则分组,当前规则将添加至选定的分组下。

Ø 主题表:选择波动检查的来源表。

Ø 业务规则:选择规则的业务规则类型。

Ø 指标表达式:不支持sumif、countif表达式。点击在弹出的对话框内输入指标表达式,或者点击在打开的公式展示页面中绘制指标关系。

Ø 校验方式:拉依达法或格鲁布斯法。

Ø 关联关系:指标表达式或者过滤条件涉及他表时,过滤条件涉及他表时需勾选与之对应的关联关系。

Ø 描述:用户输入规则的详情。

Ø 过滤条件:当对一部分数据进行检查时,可以输入过滤条件表达式。

Ø 问题级别:分为严重、重要、一般。用户可以根据提示选择优先处理哪类问题。

Ø 自动启用:打上勾后表示创建规则后自动设为启用状态,不打勾设为禁用状态。

Ø 权重:输入权重值,用于质量管理绩效打分。

可以点击右下角的查看“离群值检查说明”

参数设置完成后点击完成,规则新建成功。

3.创建质检方案,在质检方案页面新建,弹出质检方案新建流程页面,填写方案的标题进入下一步,将上述新建规则添加到方案中。

点击下一步,后续设置可跳过,直到成功。

4.执行质检方案。在质检方案页面点击方案右侧操作栏的“执行”按钮,弹出弹框,选择合适的数据期,上期例外不同步,点击“确定”,开始执行方案。

5.查看质量监控。在质量监控页面,选择质检方案“离群检查”,选择合适的数据期、数据级次和主题表,下面显示规则质检后主题表的数据量、错误合计、例外合计、已修复合计的数据情况。点击操作栏的查看或错误合计下的数字可查看错误数据详情。

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇引用完整性检查

下一篇平衡性检查

请先登录