睿治

当前版本：2.7.2

产品认识

睿治产品介绍

数据建模

了解数据建模

数据架构

数据建模

数据建模流程图

概念模型

逻辑模型

物理模型

发布模型

画布设计器

逆向建模

模型审批管理

其他

模板库

数据模型和其他模块的联系

常用权限设置-数据建模

场景举例

元数据

了解元数据

元数据采集

采集适配器

采集任务配置

入库审核

元数据管理

元数据监控

元数据管理

元数据分析

元数据检核

元数据变更

元数据发布工作流

元数据支持打标且同步到资产

数据地图

新建数据地图

数据地图使用

元模型管理

了解元模型

元模型特殊属性说明

数据标准

了解数据标准

数据标准介绍

建数据标准

新建标准集

新建编码规则

新建标准

标准发布和审批

数据标准智能推荐

智能推荐匹配规则

新建标准审批工作流

落地评估

落地映射

落地评估

配置管理

参考数据管理

等价评估配置

其他功能

标准文档管理

数据集成

了解数据集成

数据源

新建数据源

数据库连接池管理

文件数据源

接口数据源

FTP服务器

文件传输代理

kafka数据源

HDFS数据源

应用数据源

第三方数据源

数据集

了解数据集

了解主题域&主题集&维表&主题表

主题表&主题集

创建主题域&主题集

主题表

根据数据库表创建主题表

根据数据标准创建主题表

设置表关联关系

主题表

维表

新建单级维

新建代码层级维

新建通用维

维表数据更新

维表

数据整合

任务设计器界面功能介绍

ETL任务设计器界面功能介绍

ETL任务管理

创建ETL任务

发布ETL任务(ETL任务流)到运行区

新建实时任务

批处理及交换组件使用参考

垃链表组件

存储过程组件

行更新组件

JSON解析组件

Xml解析组件

快速装卸组件

输入输出组件

批交换组件

文件传输组件

循环节点组件

大数据引擎

Greenplum卸载组件

Greenplum装载组件

Hadoop迁移组件

Hadoop输出组件

Hadoop文件输入组件

HDFS组件

HTTP接口组件&WebService接口

JSON生成组件

ORACLE装卸载组件

参数赋值组件

分支组件

路由组件

检验组件

文件传输代理组件

Mongodb组件

redis输入组件

主题表输出组件

列转行组件

行转列组件

加解密组件

实时组件使用参考

调度平台

任务流设计器界面功能介绍

ETL任务流设计界面功能介绍

控制策略

条件执行

并发执行

分布式执行

血缘分析

任务流调度管理

创建和监控调度

运行监控

调度补发执行

度优先级

调度重试执行

了解任务流调度管理

实施调度管理

实时调度

事件管理

库表事件

文件事件

任务调度参数设置

任务流调度绑定事件

事件处理日志

变更检查管理

创建变更检测

监控中心

首页

总体调度统计

创建ETL任务流

数据质量

了解数据质量

数据质量介绍

创建质量模型

质检规则

质检规则实例

sql脚本

空值检查

值域检查

规范检查

波动检查

逻辑检查

重复数据检查

及时性检查

记录缺失检查

引用完整性检查

离群值检查

平衡性检查

数据集检查

JAVA脚本

R脚本

Python脚本

新建质检规则

质检规则通用设置说明

质检方案

创建和执行质检方案

质量监控和智能修复

质检结果表

评分卡

数据整改

质量分析

自定义质量分析报告

数据资产和数据服务

了解数据资产和数据服务

创建目录

建目录模型

添加类目

建标签

创建数据资源

数据资源编目流程图

预编目

资产编目

挂接资源和开放服务

生成API和绑定API

资源上下架

创建数据产品

数据产品编目流程图

建产品

注册产品

挂接产品

产品上下架

创建资产门户

了解资产门户

创建资产门户

激活内置门户

资产显示条件表达式

使用数据资产

资产门户使用说明

内置门户使用说明

数据资源提供的服务

数据产品提供的服务

接口管理

资产API管理

接口开发

审批和待办

预编目审批

资产发布审批

资产下架审批

接口发布审批

接口调用申请

服务代办-服务挂接资源

服务代办-交换服务绑定交换任务

数据安全

了解数据安全

数据安全介绍

敏感数据设置

数据分级分类

新建敏感数据标签

识别敏感数据

数据资产加密

新建加密

密钥管理

数据资产脱敏

新建脱敏

新建脱敏规则

数据库权限管理

用户管理

用户校核

权限校核

权限标签

其他功能

数据规范

模板库

安全服务接口

数据生命周期

了解数据生命周期

数据归档

近线归档

离线归档

数据销毁

系统管理

数据分析

了解数据分析

门户管理

创建门户

工作流

工作流发布

用户权限

常用权限设置

机构管理

用户管理权限

角色管理

库表配置

权限设置

高级设置

免登录设置

其他

替换Iogo

手机短信服务商配置

发件邮箱配置

企业微信应用配置

钉钉应用配置

大数据环境配置

站内信

日志

系统连接池

产品注册

资源管理器

计划任务

性能与维护

数据分析配置

第三方存储

Hadoop迁移组件

顶(0) 分享评论(0) 编辑

分享到 腾讯微博开心001 人人网新浪微博 QQ空间微信印象笔记

1.概述

用户可以通过Hadoop迁移组件将关系型数据库中的数据批量导入到impala或petabase、hive等库中。

2.操作步骤

前置条件：用户已部署HDFS服务器。

操作入口：【任务管理>任务定义>新建批处理任务>大数据组件】

1）新建Hadoop迁移组件

打开任务编辑器，左侧组件面板中找到大数据分组栏，选择Hadoop迁移组件拖拽到右边编辑区域。

2）界面设置

双击Hadoop迁移组件，打开源设置界面，选择源库表

切换到目标设置界面，设置组件信息，点击确定。

界面设置说明：

目标连接池：只列出impala或hive类型的库。

表名前缀：源表迁移到目标连接池时所生成的表名前缀。

数据写入时覆盖：该选项对已存在的表生效。勾选，则会覆盖已经存在的数据；否则，只是简单的追加，不做重复性校验。

HDFS地址：目的连接池所在服务器上的HDFS对应地址，默认是127.0.0.1:8020。

HDFS临时目录：指定源表的数据写入到hdfs上时的临时目录，如果是不存在的目录（因为最终在目标库中生成表时，会将该数据文件从临时目录下移到表数据文件在系统中的默认路径下，一般默认是/user/tmp）

文件格式：支持TXT和PARQUET两种格式，TDH环境只支持TXT方式，其他环境：如CDH，则使用PARQUET。

压缩方式：TXT文件默认不压缩，PARQUET文件支持几种常用的压缩方式：不压缩(默认)、SNAPPY、GZIP。

3.注意事项

1.因为HDFS文件的操作涉及到权限的问题，所以对于HDFS临时目录的选择需要注意，如果在组件执行过程中报权限的错（Permission denied），需要修改目录（该目录的权限最好为777）。

2.对权限的理解详参考： http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_permissions_guide.html以及http://www.cnblogs.com/webnote/p/5734714.html

3.HDFS临时目录可以指定一个不存在的目录，系统会自动创建该目录。但因为子目录的权限会继承父目录的权限，且由于上述所述权限问题，故最好满足父目录的权限为777。

4.Hadoop迁移组件支持将原表字段注释输出到目标表，详情见批量交换到表组件。

文档内容仅供参考
如果您需要解决具体问题，还可以登录亿信社区
在提问求助板块提问，30分钟内帮您解决问题

如果您认为本词条还有待完善，请编辑

上一篇Greenplum装载组件

下一篇Hadoop输出组件

还有问题没解决？去亿信社区求助大神吧进入社区 >

请先登录

创建词条

全部产品

产品版本