睿治

当前版本：2.7.2

采集适配器

顶(0) 分享评论(0) 编辑

分享到 腾讯微博开心001 人人网新浪微博 QQ空间微信印象笔记

1.概述

睿治元数据内置丰富的元数据采集适配器，且适配器采用可扩展设计，最大限度满足自动化采集需求。睿治元数据总共支持66种元数据适配器，其中数据库类型有30+种，报表工具有8种，etl工具有8种等，满足用户多样的采集需求。

2.Mysql采集适配器

使用采集向导完成采集配置，通过采集mysql库中元数据讲解元数据的采集。

2.1配置数据源和采集任务

登录睿治后，在【元数据】模块，选择【元数据采集】。

在适配器管理界面，可以看到采集元数据的各种方式。MySQL属于关系型数据库，点击选择【关系型数据库】，可以看到【MySQL采集适配器】。

鼠标移动到【MySQL采集适配器】，会显示添加图标。

点击添加，进入采集向导。

在采集向导中，填写数据源名称，并选择是否需要审核，此处选择“否”（审核选择“是”，则所有的采集数据均需要做入库审核）；适配器、工具版本、采集模式默认即可；数据源挂载路径若没有，可选择【新建】。

在跳转的新页面中，选择新建元数据。

元数据代码、名称根据需求命名；元数据类型，在下拉框中选择：数据库包-关系型数据库包-目录。

完成新建元数据挂载点后，返回采集向导数据源配置界面，先点击刷新，再选择刚刚新建的数据源挂载路径，点击【下一步】。

在数据源参数配置中，配置数据库的url、用户名、密码；配置完成，可点击连接测试，测试成功才能正常采集元数据。最后两项选择“是”，可获取库表注释信息。完成后，点击【下一步】。

采集类型配置界面，可设置采集的元数据类型，以及每类元数据的采集范围，页面默认全部勾选。具体使用章节见《采集任务配置》。

按需选择入库策略和是否自动发布，这里入库策略选择“全量”，自动发布选择“否”。设置完成后，点击【下一步】。

1）入库策略

全量入库：对比挂载点与采集源中的元数据，删除挂载点下多余元数据，添加缺失元数据，更新差异元数据；删除多余依赖关系，添加缺失依赖关系。

追加入库：对比挂载点与采集源中的元数据，保留挂载点下多余元数据，添加缺失元数据，保留差异元数据；保留多余依赖关系，添加缺失依赖关系。

保守入库：对比挂载点与采集源中的元数据，保留挂载点下多余元数据，添加缺失元数据，更新差异元数据（采集元数据标题或属性不为空时，才将非空值更新到已有元数据）；保留多余依赖关系，添加缺失依赖关系。

激进入库：对比挂载点与采集源中的元数据，删除挂载点下多余元数据，添加缺失元数据，更新差异元数据（采集元数据标题或属性不为空时，才将非空值更新到已有元数据）；删除多余依赖关系，添加缺失依赖关系。

注：元数据代码和路径相同则认为是相同元数据。

2）自动发布

否：是指采集入库后只进入最新元数据。

是：是指采集入库后进入最新元数据且自动发布为定版元数据。

最后配置计划任务，填写计划任务名称，设置计划任务执行的周期。若勾选启用，计划任务会根据配置定期自动执行。也可以手动执行计划任务。点击【完成】，数据源和采集任务创建完毕。

创建完成后，在【数据源管理】中可查看、修改该数据源信息。

在【采集任务配置】中可查看、修改该采集任务设置。

2.2执行采集任务

切换到【采集任务配置】模块，找到之前创建好的计划任务，点击【立即运行】，即可开始元数据的采集。

在弹出的窗口中可以看到采集任务执行进度。

采集任务执行完成后，点击采集任务名称可查看执行日志。也可以在【采集日志】模块查看执行日志。

采集成功后，在【元数据】-【元数据管理】-【最新元数据】中可查看采集到的元数据。

如果数据源中设置了入库审核，则入库审核通过后才会进入到最新元数据中

3.JDBC采集适配器

采集数据库的元数据时，既可以使用各数据库自己的采集适配器进行采集，也可以使用JDBC采集适配器进行采集，且JDBC采集适配器支持设置采集范围，包括设置采集的元数据类型以及元数据范围。

3.1采集数据源配置

1）方式一

根据实际需求进行数据源配置。比如下图为采集某个oracle数据库的数据源配置，schemas参数设置的是wlf3，表示采集wlf3这个数据库用户下的元数据。

驱动类（driver）和数据库访问URL（url）默认给的是oracle数据库的配置示例，如果是采集其他类型数据库，需要进行相应修改。这里支持的数据库类型以及driver和url示例见下面表格：

类型	数据库	driver	url
关系型数据库	Oracle	oracle.jdbc.driver.OracleDriver	jdbc:oracle:thin:@127.0.0.1:1521/servicename
	Mysql	com.mysql.jdbc.Driver	jdbc:mysql://127.0.0.1:3306/dbname?useUnicode=true&characterEncoding=utf8
	DB2	com.ibm.db2.jcc.DB2Driver	jdbc:db2://127.0.0.1:50000/dbname
	SQL Server	com.microsoft.sqlserver.jdbc.SQLServerDriver	jdbc:sqlserver://127.0.0.1:1433;databaseName=dbname;
	Sybase ASE	com.sybase.jdbc3.jdbc.SybDriver	jdbc:sybase:Tds:127.0.0.1:5000/dbname?charset=cp936
	PostgreSQL	org.postgresql.Driver	jdbc:postgresql://127.0.0.1:5432/dbname
	Greenplum	com.pivotal.jdbc.GreenplumDriver	jdbc:pivotal:greenplum://127.0.0.1:5432;DatabaseName=dbname
	Informix	com.informix.jdbc.IfxDriver	jdbc:informix-sqli://172.0.0.1:9088/dbname:INFORMIXSERVER=ifxserver;NEWCODESET=GBK,8859-1,819,Big5;NEWLOCALE=en_us,zh_cn;
国产数据库	ArteryBase	com.thunisoft.ArteryBase.Driver	jdbc:ArteryBase://127.0.0.1:5432/test?Charset=utf8
	Gbase	com.gbase.jdbc.Driver	jdbc:gbase://172.0.0.1:5258/test_gbase
	Huawei-elk	org.postgresql.Driver	jdbc:postgresql://127.0.0.1:25108/dbname?currentSchema=public
	KingBase8	com.kingbase8.Driver	jdbc:kingbase8://127.0.0.1:54321/dbname
	LinkoopDB	com.datapps.linkoopdb.jdbc.JdbcDriver	jdbc:linkoopdb:tcp://127.0.0.1:9105/db_name
	MaxCompute	com.aliyun.odps.jdbc.OdpsDriver	jdbc:odps:http://service.cn-beijing.maxcompute.aliyun.com/api?project=ODM
	PetaBase2.1	com.esen.jdbc.PetaBaseDriver	jdbc:petabase://127.0.0.1:21050/dbname;auth=noSasl
	星环Transwarp	org.apache.hive.jdbc.HiveDriver	jdbc:hive2://127.0.0.1:10000/default
	达梦数据库	dm.jdbc.driver.DmDriver	jdbc:dm://127.0.0.1:5236
大数据库	Hive	org.apache.hive.jdbc.HiveDriver	jdbc:hive2://127.0.0.1:10000/default
大数据库	Vertica	com.vertica.jdbc.Driver	jdbc:vertica://127.0.0.1:5433/testdb

2）方式二

也可以先在【数据集成】-【数据源】中创建一个指向待采集数据库的连接池（这里选择相应的数据库类型可以自动带出驱动类和url示例）。

然后在采集数据源配置这里选择上面建好的连接池，会直接带出驱动类、url、用户名和密码等设置，再补充其他参数值的设置。

3.2采集类型配置

在采集类型配置界面，可设置采集的元数据类型，以及每类元数据的采集范围。

比如，只采集表和视图，以及他们的组合项（字段、索引等），且表只采集以DIM_和FACT_开头的表，视图只采集VFACT_GRZB和VFACT_YGQJ。具体设置如下图。

注：表、视图和字段集下都有字段，他们都是同一种元模型——字段元模型。不能精确到比如只采集表的字段，不采集字段集的字段。只能字段要么采集，要么不采集。故这里不能去掉字段集的勾选。

可以看到，左侧的采集列表用于勾选需要采集的元数据类型，默认都是勾选的。

点击选中采集列表中的元数据节点，右侧页面用于设置这类元数据的采集范围。【包含项】是要采集的元数据，不设置代表采集全部；【排除项】是不采集的元数据，不设置代表无。

4.数据工厂平台采集适配器

随着版本的发布，元数据采集需要支持采集数据工厂更高的版本，现产品数据工厂采集适配器支持了4.5.x、4.6.x、4.7.x版本。

4.1配置采集数据源

以采集数据工厂4.7.1为例，首先在元数据管理-最新元数据页面，点击【新建】按钮，新建元数据，输入代号和标题，元数据类型选择“数据工厂平台”，点击【下一步】后确定保存。

在元数据采集-数据源管理页面，点击【新建】按钮，新建采集数据源，输入采集数据源的基本信息，其中适配器选择数据工厂平台采集适配器，版本选择4.6.x。

点击【下一步】，输入数据源的url，用户名和密码，测试连接成功后点击【完成】按钮。

4.2配置采集任务

在元数据采集-采集任务配置页面，点击【新建】按钮新建采集任务，选择数据源和采集策略。

点击【下一步】，输入采集任务标题，点击【完成】按钮。

4.3执行采集任务

点击【立即执行】按钮，执行采集数据工厂461的任务，采集完成后，在入库审核页面点击【通过】。

审核通过后，在最新元数据页面可以看到采集的元数据内容。

5.Excel采集适配器

在采集各系统和工具的元数据时，如果没有配套的适配器或者不能联通而导致无法自动采集元数据，则可以下载excel模板，录入元数据信息和依赖后，使用Excel采集适配器将excel数据采集到平台中。

使用Excel采集适配器采集元数据的操作方法同Excel补录适配器，具体见下一节《6.Excel补录适配器》章节。唯一的差别是建采集数据源时设置【数据源挂载路径】这里，如果是Excel补录适配器，这里可以选择任意挂载点，而对于Excel采集适配器，这里只能选择全新的挂载点，即没有采集数据源的挂载点。

6.Excel补录适配器

Excel补录适配器，一般用于对已有采集进行补充，比如元数据属性的批量补充，缺失元数据的批量补充，以及数据库中未采集到的依赖关系的批量补充等，且支持跨库依赖的补充。

在前面章节我们使用mysql采集适配器采集了某个mysql数据库的元数据，假设有一批数据库表和字段元数据自动采集不了，这种情况下我们可以在excel中人工录入这些缺少的元数据和依赖关系，然后使用Excel补录适配器将该excel数据采集到平台。下面我们用这个例子来讲解Excel适配器的使用。

【操作步骤】

第一步：创建采集数据源。

在【元数据】-【元数据采集】-【数据源管理】模块，点击【新建】。

在弹出的对话框中，完成数据源基本信息设置，如下图：

其中，

1) 适配器：选择“其他”下的“Excel补录适配器”。

2) 采集模式：分为“文件上传(手动采集)”和“服务器文件(定时采集)”两种模式。文件上传(手动采集)，是手动执行采集，执行时需上传excel数据；服务器文件(定时采集)，是定时自动执行采集，执行时会到服务器指定位置获取excel数据，指定位置在下一步中设置。按需选择即可，本例我们设置为“文件上传(手动采集)”。

3) 数据源挂载路径：补录到的元数据挂载点。

4) 审核：选择“是”，则采集后需要入库审核，审核通过后采集到的元数据才会进入最新元数据。选择“否”，则采集后无需入库审核，直接进入最新元数据。按需选择即可，本例我们选择“否”。

【保存】，完成采集数据源创建。

第二步：创建采集任务。

在【元数据】-【元数据采集】-【采集任务配置】界面点击【新建】。

在弹出的计划任务向导页面，【数据源】选择上面创建的数据源“Excel补录”，【自动发布】选择“否”，如下图：

注：自动发布为“否”，是指采集入库后只进入最新元数据；自动发布为“是”，是指采集入库后进入最新元数据且自动发布为定版元数据。

【下一步】，给采集任务命名，如下图，点击【完成】，完成采集任务的创建。

Tips：

也可以通过【适配器管理】模块的采集任务创建入口一次性完成采集数据源和采集任务的创建。

第三步：准备excel数据。Excel模板在【元数据】-【元数据采集】-【采集模板配置】模块中获取，具体操作如下：

在【采集模板配置】模块，点击【新建】。

输入模板名称，“数据源”选择上面新建的采集数据源，然后按需选择要补录的元数据类型，这里我们勾选“表”和“字段”。

【下一步】，选择表和字段元数据要录入的属性。【确定】，完成模板创建。

在模板列表中点击【导出】，导出该模板。

在导出的excel模板中录入缺失的表、字段和依赖关系。如下图，录入了一张数据库表cs_excel，该表有2个字段ID_和NAME_；另外，还有一条依赖关系，表cs_excel依赖于同挂载点下的表dim_gzdd。

Tips：

1）在excel中录入依赖关系时只需录入直接依赖。

2）元数据路径一定要根据模板提示正确填写，否则会影响元数据的入库。

3）如果是用excel补录适配器进行已有元数据属性的批量补充，则可以导出已有元数据，在导出的excel中完成属性值补充，然后再使用excel补录适配器将该excel的数据采集进来。元数据导出入口如下：

第四步：执行采集任务，将excel数据采集到平台的最新元数据中。

在【采集任务配置】界面的任务列表里可以找到刚才新建的采集任务，如果没有，点击【刷新】刷新任务列表即可，找到刚才创建的采集任务，点击操作里的【立即执行】，如下图：

在弹出的对话框中，点击选择本地的excel数据文件（第一步中准备好的excel文件）上传，然后点击【立即执行】开始采集。

采集完成后，在最新元数据模块可查看添加进来的元数据和依赖。

7.KTR脚本采集适配器

通过KTR脚本采集适配器，解析KTR脚本，采集元数据及依赖关系，从而得到对应关系型数据库之间的关系。

7.1准备工作

1. 以下面这个ktr脚本为例，该脚本内容涉及std层的STD_ALM_CDB_MODULE_USE_INFO表和ods层的ODS_ALM_CDB_MODULE_USE_INFO表。

2. 先创建关系型数据库的目录挂载点，采集表所在的数据库，确保已采集到std挂载点下的表STD_ALM_CDB_MODULE_USE_INFO和ods挂载点下的表ODS_ALM_CDB_MODULE_USE_INFO。

Tips：

以上提到的std层和ods层是指业务场景中不同的数据分层，也可以理解为不同的数据库。

7.2配置数据源和采集任务

在元数据采集的适配器管理页面，选择【其他】分类下的【KTR脚本采集适配器】，点击右上角的添加按钮，进入新建采集向导。

在采集向导中，填写数据源名称，并选择是否需要审核（审核选择“是”，则所有的采集数据均需要做入库审核）；适配器、工具版本默认即可；采集模式可选择服务器文件（定时采集）和文件上传（手动采集）。

注：若选择服务器文件（定时采集），在“数据源参数配置”页面需配置ktr脚本文件所在的路径，路径中需写明文件名。

数据源挂载路径若没有，可点击【新建】。

浏览器新标签页打开最新元数据页面，可新建元数据挂载点。

元数据代码、名称根据需求命名；元数据类型，在下拉框中选择： KTR脚本包-KTR挂载点。

完成新建KTR挂载点后，返回采集向导数据源配置界面，先点击刷新，再选择刚刚新建的数据源挂载路径，点击【下一步】。

在数据源参数配置，需设置层级属性，指定层级和数据库挂载点的对应关系。以上ktr脚本涉及std层和ods层，需要指定std层和ods层对应的数据库挂载点，多条关系之间用英文分号分隔，格式为：std=std层挂载点id;ods=ods层挂载点id。

Tips：

挂载点的元数据ID可以在最新元数据的基本信息页面查看：

完成后，点击【下一步】，配置入库策略和是否自动发布。

点击【下一步】，若采集模式选择服务器文件（定时采集），此页面可配置定时执行的计划任务；若采集模式选择文件上传（手动采集），此页面只配置采集任务标题。

点击【保存】，创建采集数据源和采集任务成功。

Tips：

也可以在【数据源管理】先创建采集数据源，再在【采集任务设置】创建采集任务。

7.3执行采集任务

切换到【采集任务配置】模块，找到之前创建好的计划任务，点击【立即执行】，若采集模式选择服务器文件（定时采集），则开始采集，解析服务器上的ktr脚本；若采集模式选择文件上传（手动采集），则弹出上传文件框，选择本地ktr脚本进行上传后，再开始采集元数据。

Tips：

支持上传单个脚本文件（文件后缀是.ktr或.kjb）或者批量zip包。

点击立即执行后，打开的页面可以看到采集任务执行进度。

采集成功后，若数据源设置不审核，则在【元数据管理】-【最新元数据】中可查看采集到的元数据；若数据源设置了入库审核，则入库审核通过后才会进入到最新元数据中。

7.4进行元数据分析

KTR脚本采集，能采集到脚本中的数据分层、KTR表、KTR字段。

KTR脚本采集，能采集到的依赖关系有3种：

1、ktr字段和ktr字段之间的依赖。

2、ktr字段和与实际数据库字段的依赖、

3、根据ktr层级配置的对应数据库挂载点id，生成实际层的数据库之间，字段和字段的依赖。

具体举例如下：

1. 从脚本中可解析到STD层表的CREATE_TIME字段，数据来源于ODS层表的CREATE_TIME字段，因此KTR挂载点下，可以采集到STD层的KTR字段【CREATE_TIME】依赖ODS层的【CREATE_TIME】字段。

2. 由于层级设置配置std层对应的数据库挂载点是【pg_std挂载点】，因此，可以采集到STD层的KTR字段【CREATE_TIME】依赖【pg_std挂载点】下的数据库字段【CREATE_TIME】。

同理，ODS层的KTR字段【CREATE_TIME】也会依赖数据库字段。

3. 层级设置配置std层对应的数据库挂载点是【pg_std挂载点】，ods层对应的数据库挂载点是【pg_ods挂载点】。除了以上两种依赖，还可以采集到【pg_std挂载点】的数据库字段【CREATE_TIME】依赖【pg_ods挂载点】的数据库字段【CREATE_TIME】

对STD层的KTR字段【CREATE_TIME】进行全链分析，可以看到这三种依赖关系。

KTR脚本采集的最终目的，是通过解析脚本，建立起不同数据库(分层)之间的关联。因此从关系型数据库侧查看分析时，会隐藏ktr脚本元模型类型的数据，只显示数据库元数据之间的关系。

8.MAPPING导入适配器

为了人工补充数据库中表->表、字段->字段之间的依赖关系，可以使用MAPPING导入适配器进行采集。

8.1导出并填写MAPPING关系模板

在【采集模板配置】页面点击【导出MAPPING关系模板】，导出模板文件。

先填写目标挂载点ID和源挂载点ID。

Tips：

挂载点的元数据ID可以在最新元数据的基本信息页面查看：

【目标表表名】只能填写一个，【源表表名】可以填写多个。

注：如果目标表有多个，想批量添加，可以增加excel的sheet页，复制模板内容，分不同的sheet页添加不同的目标表。

根据上图的excel文件，可以添加以下依赖：

(1) 表和表的直接依赖：

源端的GL_DETAI -> 目标端的 F_FA_CASH_FLOW_CASE

源端的GL_CASHFLOWCASE -> 目标端的 F_FA_CASH_FLOW_CASE

源端的D_CASHFLOW -> 目标端的 F_FA_CASH_FLOW_CASE

源端的BD_CURRTYPE -> 目标端的 F_FA_CASH_FLOW_CASE

(2) 字段和字段的直接依赖：

源端的PK_DETAIL -> 目标端的DETAIL_ID

源端的INNERCODE -> 目标端的CASH_FLOW

源端的NAME -> 目标端的CASH_FLOW_NAME

源端的CODE -> 目标端的CURRENCY

源端的MONEY -> 目标端的AMT

源端的YEARV -> 目标端的BBQ

8.2配置数据源和采集任务

在元数据采集的适配器管理页面，选择【其他】分类下的【MAPPING导入适配器】，点击右上角的添加按钮，进入新建采集向导。

注：若选择服务器文件（定时采集），在“数据源参数配置”页面需配置mapping模板文件所在的路径，路径中需写明文件名。

数据源挂载路径可选择导入模板中的目标挂载点或源挂载点。

点击【下一步】，配置入库策略。

点击【保存】，创建采集数据源和采集任务成功。

Tips：

也可以在【数据源管理】先创建采集数据源，再在【采集任务设置】创建采集任务。

8.3执行采集任务

切换到【采集任务配置】模块，找到之前创建好的计划任务，点击【立即执行】，若采集模式选择服务器文件（定时采集），则开始采集，解析服务器上的mapping关系模板文件；若采集模式选择文件上传（手动采集），则弹出上传文件框，选择本地mapping关系模板进行上传后，再开始采集元数据。

Tips：

只支持上传单个mapping关系模板文件，文件中可以添加多个sheet页。

点击立即执行后，打开的页面可以看到采集任务执行进度。

Tips：

MAPPING导入采集，只会添加依赖，不会添加元数据。若模板中的表和字段在对应挂载点下不存在时，会跳过导入这条依赖。

采集成功后，若数据源设置不审核，则在【元数据管理】-【最新元数据】中可查看采集到的依赖；若数据源设置了入库审核，则入库审核通过后才会进入到最新元数据中。

文档内容仅供参考
如果您需要解决具体问题，还可以登录亿信社区
在提问求助板块提问，30分钟内帮您解决问题

如果您认为本词条还有待完善，请编辑

上一篇发布ETL任务(ETL任务流)到运行区

下一篇内置门户使用说明

还有问题没解决？去亿信社区求助大神吧进入社区 >

请先登录

创建词条

全部产品

产品版本