1. 概述
重复数据检查是检查一张表内的重复数据。确保主数据唯一、指标可信的关键防线:它以唯一键、模糊匹配和归并规则为基准,实时或离线识别并消除“同一实体多次记录”带来的冗余与失真,从源头阻断虚高统计,提升数据一致性与业务可用性。
以销售数据为例,销售订单基本信息表记录销售订单的基本信息,现使用重复数据检查规则检查信息表记录的客户信息及下单日期是否有记录重复的情况。
2. 操作步骤
1.在质量模型中添加主题表“销售订单基本信息表”,定义主题表的数据期、数据级次、关键字字段。没有可不定义。
2.新建规则。在质量模型规则库页面点击新建,选择重复数据检查,点击下一步进入规则编辑页面,选择主题表“销售订单基本信息表”,定义重复依据,勾选“客户名称”“客户联系方式”“下单日期”三个字段,检测这三个字段的的重复数据。
该规则的参数如下:
Ø 代号:系统将根据规则类型系统自动生成,也可能自定义输入。
Ø 分组:选择规则分组,当前规则将添加至选定的分组下。
Ø 主题表:选择波动检查的来源表。
Ø 业务规则:选择规则的业务规则类型。
Ø 定义重复依据:若仅添加一个字段,将检查该字段内是否有重复数据;若添加了多个字段,将联合检查多个字段内是否有重复数据。
Ø 描述:用户输入规则的详情。
Ø 过滤条件:当对一部分数据进行检查时,可以输入过滤条件表达式。
Ø 问题级别:分为严重、重要、一般。用户可以根据提示选择优先处理哪类问题。
Ø 自动启用:打上勾后表示创建规则后自动设为启用状态,不打勾设为禁用状态。
Ø 权重:输入权重值,用于质量管理绩效打分。
Ø 关联关系:选择主题表的关联关系。过滤条件涉及他表时,需勾选与之对应的关联关系。
可以点击右下角的查看“重复数据检查说明”,
参数设置完成后点击“完成”,该规则新建成功。
3.新建质检方案,在质检方案页面点击新建,弹出方案流程页面,填写方案标题“销售数据重复”。
点击“下一步”,将上述新建的规则添加进来。
点击“下一步”,其他设置根据需求填写,这里不再赘述,直到设置“成功”,质检方案设置完成。
4.在质检方案页面找到新建的方案,在该方案操作栏点击“执行”,弹出方案执行弹框,选择合适的数据期,不同步上期例外,点击“确定”,开始执行方案。
质检方案执行成功后,页面显示执行方案详情。
5.查看质量监控,在质量监控页面查看方案执行后的结果,选择质检方案“销售数据重复”,数据期、数据级次和主题表选择与规则相匹配。下面显示规则检查后主题表数据的结果,操作栏“查看”及错误合计下的数字可以点击查看错误的数据详情。
请先登录