HIVE调优之存储格式
目录 行式数据库和列式数据库的对比 存储格式的比较 存储格式的应用 行式数据库和列式数据库的对比 存储比较 行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数据。 压缩比较 对于行式数据库,必 ...
Read more
HIVE Skewed Table&List Bucketing
目录 HIVE Skewed Table Skewed Join Optimization(最优化) Basic Partitioning List Bucketing Skewed Table vs List Bucketing Table List Bucketing Validation H ...
Read more
大表Join大表&大表Join小表&group By解决数据倾斜
目录 大表Join大表 大表Join小表 group By解决 大表Join大表思路一:SMBJoinsmb是sort merge bucket操作,首先进行排序,继而合并,然后放到所对应的bucket中去,bucket是hive中和分区表类似的技术,就是按照key进行hash,相同的hash值 ...
Read more
Windowing functions&The OVER clause&Analytics functions
目标 The OVER clause Analytics functions Windowing functions The OVER clause聚合函数是将多行数据按照规则聚合为一行,比如count()、sum()、min()、max()、avg() 窗口函数是在做聚合的基础上,要返回的数据不 ...
Read more
创建伪表&自定义UDF函数&MR解决数据倾斜的问题&行转列案例&列转行案例&使用hive实现wc&修改hadoop的URI带来的hive数据库路径问题&多文件多目录做wc或建表带来的问题
目标 创建伪表 自定义UDF函数 MR解决数据倾斜的问题(引入) 行转列案例 列转行案例 使用hive实现wc 修改hadoop的URI带来的hive数据库路径问题 多文件多目录做wc或建表带来的问题 创建伪表 创建表dual create table dual(a string); 创建数据并 ...
Read more
Order By&Sort By&Distribute By&Cluster By
目标 全局排序(Order By) Reduce内部排序(Sort By) 分区排序(Distribute By) Cluster By 准备工作 准备测试数据 7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 ...
Read more
HS2&Hive的复杂数据结构&行列互转&常用函数&静动态分区表&桶表
目标 HS2 复杂数据结构 行列互转 常用函数 静动态分区表 桶表 SH2HS2是HiveServer2的简称 HS2: Server端,默认端口10000 修改端口的方式是通过设置hive.server2.thrift.port的值 beeline: Client端 连接方式: ./beel ...
Read more
Hive数据类型&DDL数据定义(增删查改)&DML数据操作(导入导出)
Hive数据类型基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 ...
Read more
Hive的部署和初始化工作&验证Hive部署成功
Hive安装部署Hive安装及配置 把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下 解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [hadoop@aliyun software]$ ta ...
Read more
谷粒影音8道SQL题(各种Top N)
data表字段videoId string comment "视频唯一id", uploader string comment "视频上传者",age int comment "视频年龄",category array<string> comment "视频类别 ...
Read more