在前面的章节,我们新建了标准集,并且设置了编码规则,本章节我们来讲解如何在标准集中新建标准。新建标准的方式有:智能建标、手动新建、从元数据拾取、导入和智能创建。
1. 智能创建标准
在数据标准Agent中有讲述智能建标步骤,可参考新建标准。其中指令中需要明确sheet页,sheet页可输入sheet页名页也可输入sheet页的页数,都可识别;可以进行维表挂接,标准挂接维表的完整指令类似为:识别第1个sheet内容为数据标准,识别第2个sheet页内容为参考数据,关联的标准属性为【属性名称】,需要链接维表,维表会自动生成在【数据集】-【公共维表】下。
新建标准:大小一条标准,【引用公共代码】属性需要挂接维表。
先准备好文档,文档内容如下:
将准备好的文档,上传给数据标准Agent,共有3种入口,在智能建标中已讲述,这里使用最新元数据入口:
查看标准,点击引用公共代码属性下的内容,可查看关联的维表
2. 手动拾取
在【数据标准】-【数据标准管理】-【最新标准】模块,选择标准集点击【新建】。
在打开的新页面中,完成标准的属性设置,如下图,点击【保存】。
注:本例的标准集因为设置了编码规则,所以标准编号不需要填。如果没有设置编码规则,需要手动输入标准编号。
3. 元数据拾取
(1)点击【从元数据拾取】
(2)勾选元数据,点击【下一步】
也可以点击元数据后面的,批量勾选该元数据的直接下级或下下级
另外,在选择元数据时只能勾选同类型元数据。勾选一种类别后,其他类型元数据置灰不可选
(3)点击【下一步】设置标准属性和元数据属性间的映射,方便从元数据中拉取信息。除系统默认的映射外,需要手动设置其他属性的映射
(4)设置完映射后,点击【下一步】可以看到映射的属性已自动从元数据拾取到相应信息,我们还需要补充完整其他属性。最后点击【保存】完成设置。
4. 批量导入标准
平台支持批量导入数据标准,具体操作如下:
(1)第一步,从系统导出模板。在标准集中点击【导入导出】- 选择【导出标模板】
(2)第二步,在模板中填写标准
(3)第三步,回到【数据标准】-【数据标准管理】-【最新标准】模块,点击【导入】
在弹出的对话框中,点击选择文件按钮
选择准备好的文件,点击【打开】并等待导入完成
关闭对话框,即可看到列表中新增的标准,如下图
5. 智能推荐
在做标准梳理时,哪些数据应该制定标准,需要相关人员丰富的经验并且对数据非常熟悉,尤其是多来源的数据,过程复杂耗时。目前平台的智能推荐功能支持从定版元数据库中检查出多来源数据(多个相同元数据推荐一条标准)和关键数据(一个元数据推荐一条标准:取关键程度前100的元数据)推荐为数据标准,方便用户快速识别并创建数据标准。具体推荐规则详见《智能推荐匹配规则》。
【操作步骤】
第一步:词根管理的主要作用是建立一套标准词根,对于元数据和标准的命名进行规范。词根也可用来匹配定版元数据(需为字段类型元数据),从而进行标准推荐。平台中已经内置了一些常用词根,用户可按需修改或新增(通过“新建”创建的词根无需审批直接生效,通过“申请词根”创建的词根需审批才能生效)。
比如,新建“工龄”词根。点击【新建】,在弹出的对话框中,输入必填项,点击确定,即可完成词根创建。
注:词根的中文名与元数据中文名(元数据标题)进行匹配,词根英文名及英文缩写与元数据代号进行匹配,详情可参考《智能推荐匹配规则》。
Tips: 申请词根后,需在【系统设置】-【用户权限】中给审批人配置【审批】权限 审批人在【词根管理】点击…进行审批 |
第二步:配置同义词
这里是指配置词根中文名的同义词,便于更好的和元数据匹配。
在资源管理器/root/products/edatastandard/dictionary/dict_synonym.txt中配置同义词,每组同义词使用换行符隔开,组内同义词用空格隔开。
第三步:生成智能结果推荐
初次使用智能推荐功能时,或基础信息(如定版元数据、词根、同义词)改变后,都需到【数据标准】-【配置管理】-【智能推荐管理】中重新生成推荐结果。切换到【智能推荐管理】模块下,点击【重新计算】,如下图。
第四步:智能推荐
在【数据标准】-【数据标准管理】-【最新标准】模块,点击【智能推荐】,如下图:
在弹出的对话框中,会显示智能推荐结果。
点击可进行筛选标准名称或是否采用的状态(默认为否,如勾选的标准被成功添加,再次打开智能推荐时,这些标准状态变为“是”),勾选所需添加标准,如下图:
【下一步】,确认需添加的标准,可手动编辑相关信息,设置完后点击【确定】。
在最新标准中可看到标准集下新增的2条数据标准。
5.1. 智能推荐匹配规则
1、推荐依据
类型一:多来源类型(多个元数据推荐一条标准)
情况1、出现大于等于2个同中文名元数据,推荐。
例如:
备注:
中文同名元数据,英文名称取第一个元数据的英文名称
英文同名但不含词根,暂不推荐
情况2、词根中文及同义词匹配→匹配元数据中文名称→大于等于2个元数据,推荐。
例如:
备注:满足中文匹配后,英文名称直接取词根的英文组合(词根之间使用 _ 分隔)
情况3、词根英文及英文缩写→匹配元数据英文名称→大于等于2个元数据,推荐。
例如:
备注:满足英文匹配后,中文名称直接取词根的中文组合(词根之间不分隔)
类型二:关键数据字段类型(一个元数据推荐一条标准:取综合关键程度前100的元数据)
计算关键程度:
关键程度 = 1/3 * 匹配度 + 1/3 * 匹配词根数量 + 1/3 * 关联度 (备注:公式中1/3为权重,目前暂定3个数值权重一样)
匹配度=max(中文匹配词根字符个数/中文字符个数,英文匹配词根字符个数/英文字符个数)
匹配词根数量=max((中文匹配词根字符个数-中文最小匹配数量)/(中文最大匹配数量-中文最小匹配数量),(英文匹配词根字符个数-
英文最小匹配数量)/(英文最大匹配数量-英文最小匹配数量))
关联度=(关联数-最小关联数)/(最大关联数-最小关联数)
例如:
现有词根:
现有字段元数据:
关键程度计算方式计算方式 :
最大中文词根匹配数量2,最小中文词根匹配数量0
最大英文匹配数量2,最小英文匹配数量0
最大关联元数据个数6,最小关联元数据个数2
2、推荐结果排序
排序规则:
1. 未采纳>已采纳
2. 多来源类型>关键数据字段类型
3. 来源元数据个数(多来源类型)个数多的在前面
4. 关键程度大的在前面
5. 推荐结果的标准名称升序排序
3、生成标准的填充规则
生成标准的属性填充内容包括:
标准中文名称 、标准英文名称
标准集属性中绑定过元数据的属性
只支持以下填充规则:
1.标准中文名称:元数据名称为中文时,将元数据名字中匹配上的词根同义词替换为词根,其余未匹配上的文字保留,生成标准中文 名称。如元数据为英文,则跟据匹配上的词根中文生成标准中文名称(将“名称”、“编号”、“日期”放在最后位置)。元数据名称中不包含词根的同名匹配的推荐的标准,标准中文名称直接取元数据名称。
2.标准英文名称:跟据匹配上的词根英文生成标准英文名称。元数据名称中不包含词根的同名匹配的推荐的标准,标准英文名称直接取元数据代码。
绑定过元数据的属性: 标准集属性
字段类型为字符串时: 对应元数据属性
元数据名称:取第一个值
元数据代码:取第一个值
默认值、注释:取第一个
是否自增、是否唯一、允许为空:true>false
数据类型:同类型取对应值,不同类型取VARCHAR2
长度、精度、小数位数:取最大值
标准集属性字段类型为整型时:
长度、精度、小数位数:取最大值,其他均为空
其他类型均返回为空
例如:
6. 标准子类继承上级分类属性
在数据标准-标准管理-最新标准点击主题分级新建标准时,一级分类中设置了属性,二级分类将继承一级分类的属性设置。
例如:
先在标准集中设置层级,标准按照层级分布
然后在主题分级下新建标准,这时子类将继承上级的分类属性
请先登录