睿治

当前版本：2.7.2

产品认识

睿治产品介绍

数据建模

了解数据建模

数据架构

数据建模

数据建模流程图

概念模型

逻辑模型

物理模型

发布模型

画布设计器

逆向建模

模型审批管理

其他

模板库

数据模型和其他模块的联系

常用权限设置-数据建模

场景举例

元数据

了解元数据

元数据采集

采集适配器

采集任务配置

入库审核

元数据管理

元数据监控

元数据管理

元数据分析

元数据检核

元数据变更

元数据发布工作流

元数据支持打标且同步到资产

数据地图

新建数据地图

数据地图使用

元模型管理

了解元模型

元模型特殊属性说明

数据标准

了解数据标准

数据标准介绍

建数据标准

新建标准集

新建编码规则

新建标准

标准发布和审批

数据标准智能推荐

智能推荐匹配规则

新建标准审批工作流

落地评估

落地映射

落地评估

配置管理

参考数据管理

等价评估配置

其他功能

标准文档管理

数据集成

了解数据集成

数据源

新建数据源

数据库连接池管理

文件数据源

接口数据源

FTP服务器

文件传输代理

kafka数据源

HDFS数据源

应用数据源

第三方数据源

数据集

了解数据集

了解主题域&主题集&维表&主题表

主题表&主题集

创建主题域&主题集

主题表

根据数据库表创建主题表

根据数据标准创建主题表

设置表关联关系

主题表

维表

新建单级维

新建代码层级维

新建通用维

维表数据更新

维表

数据整合

任务设计器界面功能介绍

ETL任务设计器界面功能介绍

ETL任务管理

创建ETL任务

发布ETL任务(ETL任务流)到运行区

新建实时任务

批处理及交换组件使用参考

垃链表组件

存储过程组件

行更新组件

JSON解析组件

Xml解析组件

快速装卸组件

输入输出组件

批交换组件

文件传输组件

循环节点组件

大数据引擎

Greenplum卸载组件

Greenplum装载组件

Hadoop迁移组件

Hadoop输出组件

Hadoop文件输入组件

HDFS组件

HTTP接口组件&WebService接口

JSON生成组件

ORACLE装卸载组件

参数赋值组件

分支组件

路由组件

检验组件

文件传输代理组件

Mongodb组件

redis输入组件

主题表输出组件

列转行组件

行转列组件

加解密组件

实时组件使用参考

调度平台

任务流设计器界面功能介绍

ETL任务流设计界面功能介绍

控制策略

条件执行

并发执行

分布式执行

血缘分析

任务流调度管理

创建和监控调度

运行监控

调度补发执行

度优先级

调度重试执行

了解任务流调度管理

实施调度管理

实时调度

事件管理

库表事件

文件事件

任务调度参数设置

任务流调度绑定事件

事件处理日志

变更检查管理

创建变更检测

监控中心

首页

总体调度统计

创建ETL任务流

数据质量

了解数据质量

数据质量介绍

创建质量模型

质检规则

质检规则实例

sql脚本

空值检查

值域检查

规范检查

波动检查

逻辑检查

重复数据检查

及时性检查

记录缺失检查

引用完整性检查

离群值检查

平衡性检查

数据集检查

JAVA脚本

R脚本

Python脚本

新建质检规则

质检规则通用设置说明

质检方案

创建和执行质检方案

质量监控和智能修复

质检结果表

评分卡

数据整改

质量分析

自定义质量分析报告

数据资产和数据服务

了解数据资产和数据服务

创建目录

建目录模型

添加类目

建标签

创建数据资源

数据资源编目流程图

预编目

资产编目

挂接资源和开放服务

生成API和绑定API

资源上下架

创建数据产品

数据产品编目流程图

建产品

注册产品

挂接产品

产品上下架

创建资产门户

了解资产门户

创建资产门户

激活内置门户

资产显示条件表达式

使用数据资产

资产门户使用说明

内置门户使用说明

数据资源提供的服务

数据产品提供的服务

接口管理

资产API管理

接口开发

审批和待办

预编目审批

资产发布审批

资产下架审批

接口发布审批

接口调用申请

服务代办-服务挂接资源

服务代办-交换服务绑定交换任务

数据安全

了解数据安全

数据安全介绍

敏感数据设置

数据分级分类

新建敏感数据标签

识别敏感数据

数据资产加密

新建加密

密钥管理

数据资产脱敏

新建脱敏

新建脱敏规则

数据库权限管理

用户管理

用户校核

权限校核

权限标签

其他功能

数据规范

模板库

安全服务接口

数据生命周期

了解数据生命周期

数据归档

近线归档

离线归档

数据销毁

系统管理

数据分析

了解数据分析

门户管理

创建门户

工作流

工作流发布

用户权限

常用权限设置

机构管理

用户管理权限

角色管理

库表配置

权限设置

高级设置

免登录设置

其他

替换Iogo

手机短信服务商配置

发件邮箱配置

企业微信应用配置

钉钉应用配置

大数据环境配置

站内信

日志

系统连接池

产品注册

资源管理器

计划任务

性能与维护

数据分析配置

第三方存储

大数据环境配置

顶(0) 分享评论(0) 编辑

分享到 腾讯微博开心001 人人网新浪微博 QQ空间微信印象笔记

大数据参数配置页面由原来的实时处理配置页面改造而来，在原有支持的local、standalone模式的基础上新增yarn模式的spark集群。配置大数据计算引擎后，在数据量级较大的情况下使用大数据计算引擎可有效的提升我们ETL任务和数据质检的运行效率。

【操作步骤】

1. 前置步骤：

1.1需部署大数据集群环境，详情见部署手册。此处以xxx.xxx.xxx.3这个大数据环境为例。

1.2.将开源的spark.zip和hadoop.tar.gz（联系项目人员获取）解压到睿治服务器的工作目录下，解压后先删除hadoop/etc/hadoop目录下的所有文件。

1.3.解压后将需连接的大数据集群服务器中edi-RTPS-el7/installdir/hadoop-2.7.4/etc/hadoop目录中的hdfs-site.xml、core-site.xml、yarn-site.xml文件放置到睿治工作目录的 hadoop/etc/hadoop 目录下。

1.环境配置

1.1 local模式参数配置

（1）添加配置文件

HADOOP_HOME/hadoop/etc/hadoop_local目录或睿治工作目录/hadoop/etc/hadoop_local目录放入以下文件（如果配置了HADOOP_HOME，配置文件需优先放入该目录下，后续不再说明）

hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

（2）放依赖包

睿治工作目录/spark/jars目录下放入数据质量所有依赖包

界面配置

1.2 standalone模式参数配置

（1）添加配置文件

睿治工作目录/hadoop/etc/hadoop目录放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

（2）上传依赖包

睿治服务器spark所在路径下的jars目录中需要添加所有依赖包

hdfs://xxx.xxx.xxx.3:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.3:8020/edq/spark放入edq-spark.jar包

spark集群所有服务器执行以下操作：

/opt/edi/spark/depend_jars目录下放入数据工厂所有依赖包

/opt/edq/spark/depend_jars目录下放入数据质量所有依赖包

（3）界面配置

参数配置：

1.3 Yam+sample模式参数配置

（1）添加配置文件

睿治工作目录/hadoop/etc/hadoop目录放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

（2）上传数据质量、数据工厂的依赖包到hdfs上

hdfs://xxx.xxx.xxx.182:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.182:8020/edi/spark/depend_jars放入数据工厂依赖包

hdfs://xxx.xxx.xxx.182:8020/edq/spark放入edq-spark.jar包

hdfs://xxx.xxx.xxx.182:8020/edq/spark/depend_jars放入数据质量依赖包

（3）界面配置

参数配置：

数据质量模块：

edq.spark.executor.instances=5

edq.spark.executor.memory=4g

edq.spark.executor.cores=2

edq.spark.driver.memory=2g

edq.spark.driver.maxResultSize=4g 这些为大数据质检的资源配置

数据集成模块:

单体：

spark.driver.host=xxx.xxx.xxx.27 数据集成实时任务运行的配置其中xxx.xxx.xxx.27为睿治服务器的ip地址

微服务集群：

edi.stream.spark.driver.host=$MY_HOST_IP

edi.stream.spark.driver.port=19001

edi.stream.spark.driver.blockManager.port=19002

edi.stream.spark.driver.bindAddress=0.0.0.0

其中$MY_HOST_IP为动态ip地址,需要在容器云平台中的数据工厂的服务中配置

edi.stream.spark.driver.port=19001

edi.stream.spark.driver.blockManager.port=19002

这两个端口需要在数据工厂服务中进行添加

1.4 Yam+kerbors模式参数配置

前置步骤：在带kerbors认证的服务器上部署大数据环境，这里以xxx.xxx.xxx.216为例

（1）添加配置文件

睿治工作目录/hadoop/etc/hadoop目录放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

（2）spark集群所有服务器上传kerberos文件

/opt/bigdataconf/spark/kerberos目录下放以下文件

krb5.conf、hive.service.keytab

krb5.conf从带kerbors认证的大数据服务器中获取，获取路径/etc/krb5.conf

service.keytab从带kerbors认证的大数据集群服务器中获取，获取路径/etc/security/keytabs/hive.service.keytab

（3）睿治任意服务器放入以下文件（如/opt）

krb5.conf、hive.service.keytab

（4）上传数据质量、数据工厂的依赖包到hdfs上

hdfs://xxx.xxx.xxx.216:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.216:8020/edi/spark/depend_jars放入数据工厂依赖包

hdfs://xxx.xxx.xxx.216:8020/edq/spark放入edq-spark.jar包

hdfs://xxx.xxx.xxx.216:8020/edq/spark/depend_jars放入数据质量依赖包

（5）

其中hive/petabase216.esen.com@EXAMPLE.COM中 hive可根据我们选择的 hive.service.keytab文件进行变换，@EXAMPLE.COM指定后缀的编写方式可从hive.service.keytab文件中获取。

参数配置：

1.5 实时处理服务支持本地化配置

为实现服务的轻量化部署或无外部依赖测试，可将实时处理服务的 Checkpoint 配置为本地文件，具体路径为checkpoint=file:///workdir/checkpoint（建议将workdir替换为实际使用工作目录），从而无需依赖分布式存储，即可实现服务的本地化独立运行。

2.注意事项

1.数据质量spark执行参数详解（仅作用于大数据质检）：

edq.spark.executor.instances:Spark 应用程序中执行器的数量。

edq.spark.driver.memory:spark驱动程序（driver）的内存分配的大小。

edq.spark.executor.memory:Spark 应用程序中每个执行器的的内存。

edq.spark.driver.maxResultSize:限制驱动程序（driver）接收和返回的结果集大小。

edq.spark.executor.cores:每个执行器（executor）使用的 CPU 核心数。

2.数据工厂sprak执行参数详解

实时任务资源配置参数（仅作用实时任务）：

edi.stream.spark.num.executors:控制Spark 应用程序中执行器的数量。

edi.stream.spark.executor.memory:指定每个执行器（executor）所分配的内存量。

edi.stream.spark.executor.cores:指定每个执行器使用的 CPU 核心数。

edi.stream.spark.cores.max：指定应用程序可以使用的最大 CPU 核心数量。

在资源充足的情况下，我们可通过增大这些参数的配置来提高大数据质检和ETL运行的速率。

3. 依赖jar包获取方式

在使用一键部署大数据环境安装包后，我们可以从部署安装的HDFS服务器中获取，具体路径为:/bigdataconf/spark/depend_jars。具体依赖jar包名（联系项目人员获取）。部分数据库驱动依赖jar包需手动添加。

文档内容仅供参考
如果您需要解决具体问题，还可以登录亿信社区
在提问求助板块提问，30分钟内帮您解决问题

如果您认为本词条还有待完善，请编辑

上一篇质量监控和智能修复

下一篇数据安全介绍

还有问题没解决？去亿信社区求助大神吧进入社区 >

请先登录

创建词条

全部产品

产品版本