指标管理

5.6.1 产品认识

指标管理

指标库

指标设计

指标列表功能

指标审批流程

了解指标管理

指标域

指标体系

指标固化

指标预警

数据分析

新建数据集

新建敏捷看板入口

建第一个数据集

编辑数据集

建第二个数据集

看板操作流程指引

制作图表

设计看板

数据集成

数据源

新建数据源

连接池管理

文件数据源

接口数据源

第三方数据源

FTP服务器

文件传输代理

kafka数据源

HDFS数据源

应用数据源

MongoDb数据源

数据集

创建主题域&主题集

创建主题域

创建主题集

公共维表

主题表

根据数据库表创建主题表

根据数据标准创建主题表

设置表关联关系

维表

新建单级维

新建代码层级维

新建通用维

维表数据更新

了解数据集

数据整合

任务设计器界面功能介绍

ETL任务设计器界面功能介绍

菜单栏

组件区

编辑区

日志区

ETL任务管理

新建ETL任务

新建实时任务

批处理及交换组件使用参考

存储过程组件

拉链表组件

行更新组件

Xml解析组件

Greenplum卸载组件

Greenplum装载组件

Hadoop迁移组件

Hadoop输出组件

Hadoop文件输入组件

HDFS组件

HTTP接口组件&WebService接口

JSON解析组件

JSON 生成组件

ORACLE装卸载组件

参数赋值组件

循环节点组件

文件生成组件

分支组件

路由组件

检验组件

文件传输代理组件

Mongodb组件

redis输入组件

批量交换到表组件

表输入输出组件

主题表输出组件

实时组件使用参考

KAFKA生产消费组件

CDC日志增量组件

边缘采集组件

调度平台

任务流设计器界面功能介绍

ETL任务流设计器界面功能介绍

任务流设计器界面菜单栏

任务流设计器界面组件区

任务流设计器界面编辑区

任务流设计器界面日志区

控制策略

条件执行

并发执行

分布式执行

血缘分析

创建ETL任务流

任务流调度管理

创建调度

运行监控

调度补发执行

度优先级

调度重试执行

实时调度管理

实时调度

事件管理

库表事件

文件事件

任务调度参数设置

任务流调度绑定事件

事件处理日志

监控中心

首页

总体调度统计

创建变更检测

了解数据集成

数据标准

数据标准管理

编码规则

新建标准

标准发布审批

标准文档管理

新建标准集

了解数据标准

数据标准检索

数据质量

质检规则

质检规则实例

SQL脚本规则说明

空值检查

值域检查

规范检查

波动检查

新建质检规则

质检规则通用设置说明

质检方案

创建和执行质检方案

质量监控和智能修复

质检结果表

评分卡

了解数据质量

创建质量模型

数据整改

自定义质量分析报告

门户管理

了解门户管理

新建门户

导航栏设计

导航树挂载报表

修改页面标题

预览保存

流程管理

流程设置

数据标准评审

用户注册审批

数据整改审批

流程委托转办设置

查询统计

我的流程

公共平台

数据消息通知

手机短信服务商配置

邮箱配置

企业微信配置

钉钉配置

飞书配置

站内信

备份与恢复

第三方存储

系统连接池

产品注册

资源管理器

日志

计划任务

性能与维护

数据分析配置

用户权限

机构管理

用户管理

角色管理

权限设置

库表配置

高级配置

免登陆设置

密钥管理

常用权限场景

IP接口管理

Hadoop输出组件

顶(0) 分享评论(0) 编辑

分享到 腾讯微博开心001 人人网新浪微博 QQ空间微信印象笔记

1.概述

将经过数据交换etl处理后的数据保存到大数据库impala或petabase等库中，和表输出组件一样作为输出端。

用户使用Hadoop输出组件，选择Hive和对应的表并选择不存在则创建选项，勾选分区选择分区字段，也可以勾选分桶并选择分桶字段、排序字段，点击保存，执行时，自动创建表分区分桶。

2.操作步骤

前提条件:用户已部署HDFS服务器。

操作入口：任务管理>任务定义>新建批处理任务>大数据组件

1）新建Hadoop输出组件

打开任务编辑器，左侧组件面板中找到大数据分组栏，选择Hadoop输出组件拖拽到右边编辑区域。

2）界面设置

双击Hadoop输出组件，打开字段列表界面，选择源库表。

切换到HDFS设置界面，填写设置信息，点击确定。

Hadoop输出组件也支持扩展属性配置，如：表格式，编码等，可点击官方文档进行参考。

HDFS设置说明：

HDFS地址：目的连接池所在服务器上的HDFS对应地址，默认是127.0.0.1:8020

HDFS临时目录：指定源表的数据写入到hdfs上时的临时目录，如果是不存在的目录（因为最终在目标库中生成表时，会将该数据文件从临时目录下移到表数据文件在系统中的默认路径下，一般默认是/user/tmp）

文件格式：支持TXT和PARQUET两种格式，TDH环境只支持TXT方式，其他环境：如CDH，则使用PARQUET

压缩方式：TXT文件默认不压缩，PARQUET文件支持几种常用的压缩方式：不压缩(默认)、SNAPPY、GZIP

列分隔符：按该分隔符来读取字段列表及字段值，取文件中的列分割符，以该字符对应的十六进制码表示，如\u0 001表示不可见字符，\u0009表示tab

1）分区表设置

表不存在则新建时，在分区字段列，可以勾选任意字段作为分区字段。如果未勾选分区字段，则新建的表为非分区表；勾选了分区字段就是创建分区表。

选择已存在的表时，在分区字段列，会自动加载所有的分区字段。若选择的表不是分区表，则没有分区字段。表已存在时，分区字段列无法勾选。

2）外部表设置

用户点击外部表可创建外部表，并指定本地文件存储路径，然后直接使用load data local inpath加载本地文件数据到Hive中，然后在从Hive表抽取数据到其他数据库中。

【注意事项】

HADOOP输出组件支持将字段注释一起输出到目标表中。具体方式可参考表输出。

文档内容仅供参考
如果您需要解决具体问题，还可以登录亿信社区
在提问求助板块提问，30分钟内帮您解决问题

如果您认为本词条还有待完善，请编辑

上一篇Hadoop迁移组件

下一篇Hadoop文件输入组件

还有问题没解决？去亿信社区求助大神吧进入社区 >

请先登录

创建词条

全部产品