大数据参数配置页面由原来的实时处理配置页面改造而来,在原有支持的local、standalone模式的基础上新增yarn模式的spark集群。配置大数据计算引擎后,在数据量级较大的情况下使用大数据计算引擎可有效的提升我们ETL任务和数据质检的运行效率。
【操作步骤】
1. 前置步骤:
1.1需部署大数据集群环境,详情见部署手册。此处以xxx.xxx.xxx.3这个大数据环境为例。
1.2.将开源的spark.zip和hadoop.tar.gz(联系项目人员获取)解压到睿治服务器的工作目录下,解压后先删除hadoop/etc/hadoop目录下的所有文件。
1.3.解压后将需连接的大数据集群服务器中edi-RTPS-el7/installdir/hadoop-2.7.4/etc/hadoop目录中的hdfs-site.xml、core-site.xml、yarn-site.xml文件放置到睿治工作目录的 hadoop/etc/hadoop 目录下。
1.环境配置
1.1 local模式参数配置
(1)添加配置文件
HADOOP_HOME/hadoop/etc/hadoop_local目录 或 睿治工作目录/hadoop/etc/hadoop_local目录 放入以下文件(如果配置了HADOOP_HOME,配置文件需优先放入该目录下,后续不再说明)
hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)
(2)放依赖包
睿治工作目录/spark/jars目录下放入数据质量所有依赖包
界面配置
1.2 standalone模式参数配置
(1)添加配置文件
睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)
(2)上传依赖包
睿治服务器spark所在路径下的jars目录中需要添加所有依赖包
hdfs://xxx.xxx.xxx.3:8020/edi/spark放入edi-job-spark.jar包
hdfs://xxx.xxx.xxx.3:8020/edq/spark放入edq-spark.jar包
spark集群所有服务器执行以下操作:
/opt/edi/spark/depend_jars目录下放入数据工厂所有依赖包
/opt/edq/spark/depend_jars目录下放入数据质量所有依赖包
(3)界面配置
参数配置:
1.3 Yam+sample模式参数配置
(1)添加配置文件
睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)
(2)上传数据质量、数据工厂的依赖包到hdfs上
hdfs://xxx.xxx.xxx.182:8020/edi/spark放入edi-job-spark.jar包
hdfs://xxx.xxx.xxx.182:8020/edi/spark/depend_jars放入数据工厂依赖包
hdfs://xxx.xxx.xxx.182:8020/edq/spark放入edq-spark.jar包
hdfs://xxx.xxx.xxx.182:8020/edq/spark/depend_jars放入数据质量依赖包
(3)界面配置
参数配置:
数据质量模块:
edq.spark.executor.instances=5
edq.spark.executor.memory=4g
edq.spark.executor.cores=2
edq.spark.driver.memory=2g
edq.spark.driver.maxResultSize=4g 这些为大数据质检的资源配置
数据集成模块:
单体:
spark.driver.host=xxx.xxx.xxx.27 数据集成实时任务运行的配置其中xxx.xxx.xxx.27为睿治服务器的ip地址
微服务集群:
edi.stream.spark.driver.host=$MY_HOST_IP
edi.stream.spark.driver.port=19001
edi.stream.spark.driver.blockManager.port=19002
edi.stream.spark.driver.bindAddress=0.0.0.0
其中$MY_HOST_IP为动态ip地址,需要在容器云平台中的数据工厂的服务中配置
edi.stream.spark.driver.port=19001
edi.stream.spark.driver.blockManager.port=19002
这两个端口需要在数据工厂服务中进行添加
1.4 Yam+kerbors模式参数配置
前置步骤:在带kerbors认证的服务器上部署大数据环境,这里以xxx.xxx.xxx.216为例
(1)添加配置文件
睿治工作目录/hadoop/etc/hadoop目录 放入以下文件hbase-site.xml(从需要使用的hbase库的数据库驱动中获取)
(2)spark集群所有服务器上传kerberos文件
/opt/bigdataconf/spark/kerberos目录下放以下文件
krb5.conf、hive.service.keytab
krb5.conf从带kerbors认证的大数据服务器中获取,获取路径/etc/krb5.conf
service.keytab从带kerbors认证的大数据集群服务器中获取,获取路径/etc/security/keytabs/hive.service.keytab
(3)睿治任意服务器放入以下文件(如/opt)
krb5.conf、hive.service.keytab
(4)上传数据质量、数据工厂的依赖包到hdfs上
hdfs://xxx.xxx.xxx.216:8020/edi/spark放入edi-job-spark.jar包
hdfs://xxx.xxx.xxx.216:8020/edi/spark/depend_jars放入数据工厂依赖包
hdfs://xxx.xxx.xxx.216:8020/edq/spark放入edq-spark.jar包
hdfs://xxx.xxx.xxx.216:8020/edq/spark/depend_jars放入数据质量依赖包
(5)
其中hive/petabase216.esen.com@EXAMPLE.COM中 hive可根据我们选择的 hive.service.keytab文件进行变换,@EXAMPLE.COM指定后缀的编写方式可从hive.service.keytab文件中获取。
参数配置:
2.注意事项
1.数据质量spark执行参数详解(仅作用于大数据质检):
edq.spark.executor.instances:Spark 应用程序中执行器的数量。
edq.spark.driver.memory:spark驱动程序(driver)的内存分配的大小。
edq.spark.executor.memory:Spark 应用程序中每个执行器的的内存。
edq.spark.driver.maxResultSize:限制驱动程序(driver)接收和返回的结果集大小。
edq.spark.executor.cores:每个执行器(executor)使用的 CPU 核心数。
2.数据工厂sprak执行参数详解
实时任务资源配置参数(仅作用实时任务):
edi.stream.spark.num.executors:控制Spark 应用程序中执行器的数量。
edi.stream.spark.executor.memory:指定每个执行器(executor)所分配的内存量。
edi.stream.spark.executor.cores:指定每个执行器使用的 CPU 核心数。
edi.stream.spark.cores.max:指定应用程序可以使用的最大 CPU 核心数量。
在资源充足的情况下,我们可通过增大这些参数的配置来提高大数据质检和ETL运行的速率。
3. 依赖jar包获取方式
在使用一键部署大数据环境安装包后,我们可以从部署安装的HDFS服务器中获取,具体路径为:/bigdataconf/spark/depend_jars。具体依赖jar包名(联系项目人员获取)。部分数据库驱动依赖jar包需手动添加。
请先登录