案例&Flume单源单出口&Flume单源多出口&Flume多源单出口
安装地址 Flume官网地址 http://flume.apache.org/ 文档查看地址 http://flume.apache.org/FlumeUserGuide.html 下载地址 http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6. ...
Read more
SQOOP安装&RDBMS导入HDFS&RDBMS导入HIVE&HDFS导入RDBMS&HIVE导入RDBMS&SQOOP的ETL案例&在SHELL中操作MYSQL
首先抛出两个场景 数据数据在RDBMS中,你想使用Hive进行处理,怎么做 使用Hive统计分析好了,数据还在Hive中,如何导到RDBMS中 Sqoop安装 下载并解压 下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.1 ...
Read more
Flume架构摸排
Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume的优点 可以和任意存储进程集成。 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力。 flume中的事务基 ...
Read more
Hive-ORC文件存储格式
ORC文件格式ORC的全称是(Optimized Record Columnar),使用ORC文件格式可以提高hive读、写和处理数据的能力。ORC在RCFile的基础上进行了一定的改进,所以与RCFile相比,具有以下一些优势: ORC中的特定的序列化与反序列化操作可以使ORC file wr ...
Read more
Hive元数据管理(3)
前面掌握了Hive元数据的表结构和如何删除元数据达到删除表的目的 本节使用一个project说明了如何使用HiveMetaStoreClient类来快速实现UI界面的对Hive库表的增删查改 githup地址: https://github.com/yerias/tunan-hive-metasto ...
Read more
Hive元数据管理(2)
在上节的内容讲述了Hive的元数据都有哪些重要的表,这些表中都有哪些字段,现在我们将系统的看一下他们的组成结构 在老师的某个生产故障背景下: CDH集群版本为5.2,Yarn出现了Bug,这个Bug在CDH5.3的版本下修复了,就没有多想就将Yarn组件升级到5.3,这时候出现了问题,由于5.3和 ...
Read more
Hive元数据管理(1)
众所周知,hive表中的数据是HDFS上的文件,可是hive怎么知道这些文件的内容都对应哪个字段,对应哪个分区呢?就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL,替换Derby。MySQL比Derby最大的优势在于可以多用户登录 <propert ...
Read more
Idea加载Hive源码,并且在控制台查询SQL
编译源码 下载Hive源码:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.16.2-src.tar.gz 编译Hive源码(切记不要idea里面执行命令):mvn clean package -DskipTests=true -Pha ...
Read more
HIVE调优之开发调优(2)
目录 Hadoop 框架计算特性 优化常用手段 排序选择 怎样做笛卡尔积 怎样写 in/exists 语句 设置合理的 maptask 数量 小文件合并 设置合理的 reduceTask 的数量 合理利用分桶:Bucketing 和 Sampling 合理利用分区:Partition Join 优 ...
Read more
HIVE调优之开发调优(1)
目标 Fetch 本地模式 JVM重用 map数量 reduce数量 推测执行 Fetch通过修改hive.fetch.task.conversion参数可以让一些select查询可以转换为单个获取任务,不需要执行MapReduce任务,从而最小化延迟。 目前的版本中支持none、minimal和 ...
Read more