HIVE调优之存储格式 2018-11-11| Hive | Hive 目录
行式数据库和列式数据库的对比
存储格式的比较
存储格式的应用
行式数据库和列式数据库的对比
存储比较
行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。
压缩比较
对于行式数据库,必 ...
Read more HIVE Skewed Table&List Bucketing 2018-11-10| Hive | Hive 目录
HIVE Skewed Table
Skewed Join Optimization(最优化)
Basic Partitioning
List Bucketing
Skewed Table vs List Bucketing Table
List Bucketing Validation
H ...
Read more 大表Join大表&大表Join小表&group By解决数据倾斜 2018-11-09| Hive | Hive 目录
大表Join大表
大表Join小表
group By解决
大表Join大表思路一:SMBJoinsmb是sort merge bucket操作,首先进行排序,继而合并,然后放到所对应的bucket中去,bucket是hive中和分区表类似的技术,就是按照key进行hash,相同的hash值 ...
Read more Windowing functions&The OVER clause&Analytics functions 2018-11-08| Hive | Hive 目标
The OVER clause
Analytics functions
Windowing functions
The OVER clause聚合函数是将多行数据按照规则聚合为一行,比如count()、sum()、min()、max()、avg()
窗口函数是在做聚合的基础上,要返回的数据不 ...
Read more 创建伪表&自定义UDF函数&MR解决数据倾斜的问题&行转列案例&列转行案例&使用hive实现wc&修改hadoop的URI带来的hive数据库路径问题&多文件多目录做wc或建表带来的问题 2018-11-07| Hive | Hive 目标
创建伪表
自定义UDF函数
MR解决数据倾斜的问题(引入)
行转列案例
列转行案例
使用hive实现wc
修改hadoop的URI带来的hive数据库路径问题
多文件多目录做wc或建表带来的问题
创建伪表
创建表dual
create table dual(a string);
创建数据并 ...
Read more Order By&Sort By&Distribute By&Cluster By 2018-11-06| Hive | Hive 目标
全局排序(Order By)
Reduce内部排序(Sort By)
分区排序(Distribute By)
Cluster By
准备工作
准备测试数据
7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 ...
Read more HS2&Hive的复杂数据结构&行列互转&常用函数&静动态分区表&桶表 2018-11-05| Hive | Hive 目标
HS2
复杂数据结构
行列互转
常用函数
静动态分区表
桶表
SH2HS2是HiveServer2的简称
HS2: Server端,默认端口10000
修改端口的方式是通过设置hive.server2.thrift.port的值
beeline: Client端
连接方式: ./beel ...
Read more Hive数据类型&DDL数据定义(增删查改)&DML数据操作(导入导出) 2018-11-04| Hive | Hive Hive数据类型基本数据类型
Hive数据类型
Java数据类型
长度
例子
TINYINT
byte
1byte有符号整数
20
SMALINT
short
2byte有符号整数
20
INT
int
4byte有符号整数
20
BIGINT
long
8byte有符号整数
...
Read more Hive的部署和初始化工作&验证Hive部署成功 2018-11-03| Hive | Hive Hive安装部署Hive安装及配置
把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下
解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面
[hadoop@aliyun software]$ ta ...
Read more 谷粒影音8道SQL题(各种Top N) 2018-11-02| Hive | Hive data表字段videoId string comment "视频唯一id", uploader string comment "视频上传者",age int comment "视频年龄",category array<string> comment "视频类别 ...
Read more