睿治
当前版本:2.7.2

大数据环境配置

大数据参数配置页面由原来的实时处理配置页面改造而来,在原有支持的local、standalone模式的基础上新增yarn模式的spark集群。配置大数据计算引擎后,在数据量级较大的情况下使用大数据计算引擎可有效的提升我们ETL任务和数据质检的运行效率。

【操作步骤】

1. 前置步骤:

1.1需部署大数据集群环境,详情见部署手册。此处以xxx.xxx.xxx.3这个大数据环境为例。

1.2.将开源的spark.zip和hadoop.tar.gz(联系项目人员获取)解压到睿治服务器的工作目录下,解压后先删除hadoop/etc/hadoop目录下的所有文件。

1.3.解压后将需连接的大数据集群服务器中edi-RTPS-el7/installdir/hadoop-2.7.4/etc/hadoop目录中的hdfs-site.xml、core-site.xml、yarn-site.xml文件放置到睿治工作目录的 hadoop/etc/hadoop 目录下。

1.环境配置

1.1 local模式参数配置

(1)添加配置文件

HADOOP_HOME/hadoop/etc/hadoop_local目录 或 睿治工作目录/hadoop/etc/hadoop_local目录 放入以下文件(如果配置了HADOOP_HOME,配置文件需优先放入该目录下,后续不再说明)

hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

(2)放依赖包

睿治工作目录/spark/jars目录下放入数据质量所有依赖包

界面配置

1.2 standalone模式参数配置

(1)添加配置文件

睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

(2)上传依赖包

睿治服务器spark所在路径下的jars目录中需要添加所有依赖包

hdfs://xxx.xxx.xxx.3:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.3:8020/edq/spark放入edq-spark.jar包

spark集群所有服务器执行以下操作:

/opt/edi/spark/depend_jars目录下放入数据工厂所有依赖包

/opt/edq/spark/depend_jars目录下放入数据质量所有依赖包

(3)界面配置

参数配置:

1.3 Yam+sample模式参数配置

(1)添加配置文件

睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

(2)上传数据质量、数据工厂的依赖包到hdfs上

hdfs://xxx.xxx.xxx.182:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.182:8020/edi/spark/depend_jars放入数据工厂依赖包

hdfs://xxx.xxx.xxx.182:8020/edq/spark放入edq-spark.jar包

hdfs://xxx.xxx.xxx.182:8020/edq/spark/depend_jars放入数据质量依赖包

(3)界面配置

参数配置:

数据质量模块:

edq.spark.executor.instances=5

edq.spark.executor.memory=4g

edq.spark.executor.cores=2

edq.spark.driver.memory=2g

edq.spark.driver.maxResultSize=4g   这些为大数据质检的资源配置

数据集成模块:

单体:

spark.driver.host=xxx.xxx.xxx.27  数据集成实时任务运行的配置其中xxx.xxx.xxx.27为睿治服务器的ip地址

微服务集群:

edi.stream.spark.driver.host=$MY_HOST_IP

edi.stream.spark.driver.port=19001

edi.stream.spark.driver.blockManager.port=19002

edi.stream.spark.driver.bindAddress=0.0.0.0

其中$MY_HOST_IP为动态ip地址,需要在容器云平台中的数据工厂的服务中配置

edi.stream.spark.driver.port=19001

edi.stream.spark.driver.blockManager.port=19002

这两个端口需要在数据工厂服务中进行添加

1.4 Yam+kerbors模式参数配置

前置步骤:在带kerbors认证的服务器上部署大数据环境,这里以xxx.xxx.xxx.216为例

(1)添加配置文件

睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)

(2)spark集群所有服务器上传kerberos文件

/opt/bigdataconf/spark/kerberos目录下放以下文件

krb5.conf、hive.service.keytab

krb5.conf从带kerbors认证的大数据服务器中获取,获取路径/etc/krb5.conf

service.keytab从带kerbors认证的大数据集群服务器中获取,获取路径/etc/security/keytabs/hive.service.keytab

(3)睿治任意服务器放入以下文件(如/opt)

krb5.conf、hive.service.keytab

(4)上传数据质量、数据工厂的依赖包到hdfs上

hdfs://xxx.xxx.xxx.216:8020/edi/spark放入edi-job-spark.jar包

hdfs://xxx.xxx.xxx.216:8020/edi/spark/depend_jars放入数据工厂依赖包

hdfs://xxx.xxx.xxx.216:8020/edq/spark放入edq-spark.jar包

hdfs://xxx.xxx.xxx.216:8020/edq/spark/depend_jars放入数据质量依赖包

(5)

其中hive/petabase216.esen.com@EXAMPLE.COM中 hive可根据我们选择的 hive.service.keytab文件进行变换,@EXAMPLE.COM指定后缀的编写方式可从hive.service.keytab文件中获取。

参数配置:

2.注意事项

1.数据质量spark执行参数详解(仅作用于大数据质检):

edq.spark.executor.instances:Spark 应用程序中执行器的数量。

edq.spark.driver.memory:spark驱动程序(driver)的内存分配的大小。

edq.spark.executor.memory:Spark 应用程序中每个执行器的的内存。

edq.spark.driver.maxResultSize:限制驱动程序(driver)接收和返回的结果集大小。

edq.spark.executor.cores:每个执行器(executor)使用的 CPU 核心数。

2.数据工厂sprak执行参数详解

实时任务资源配置参数(仅作用实时任务):

edi.stream.spark.num.executors:控制Spark 应用程序中执行器的数量。

edi.stream.spark.executor.memory:指定每个执行器(executor)所分配的内存量。

edi.stream.spark.executor.cores:指定每个执行器使用的 CPU 核心数。

edi.stream.spark.cores.max:指定应用程序可以使用的最大 CPU 核心数量。

在资源充足的情况下,我们可通过增大这些参数的配置来提高大数据质检和ETL运行的速率。

3. 依赖jar包获取方式

在使用一键部署大数据环境安装包后,我们可以从部署安装的HDFS服务器中获取,具体路径为:/bigdataconf/spark/depend_jars。具体依赖jar包名(联系项目人员获取)。部分数据库驱动依赖jar包需手动添加。

附件列表

0

文档内容仅供参考
如果您需要解决具体问题,还可以登录亿信社区
在提问求助板块提问,30分钟内帮您解决问题

如果您认为本词条还有待完善,请编辑

上一篇质量监控和智能修复

下一篇数据安全介绍

请先登录