感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

HIVE调优之存储格式 2018-11-11|Hive|Hive

目录行式数据库和列式数据库的对比存储格式的比较存储格式的应用行式数据库和列式数据库的对比存储比较行式数据库存储在hdfs上式按行进行存储的，一个block存储一或多行数据。而列式数据库在hdfs上则是按照列进行存储，一个block可能有一列或多列数据。压缩比较对于行式数据库，必 ...

HIVE Skewed Table&List Bucketing 2018-11-10|Hive|Hive

目录 HIVE Skewed Table Skewed Join Optimization(最优化) Basic Partitioning List Bucketing Skewed Table vs List Bucketing Table List Bucketing Validation H ...

大表Join大表&大表Join小表&group By解决数据倾斜 2018-11-09|Hive|Hive

目录大表Join大表大表Join小表 group By解决大表Join大表思路一：SMBJoinsmb是sort merge bucket操作，首先进行排序，继而合并，然后放到所对应的bucket中去，bucket是hive中和分区表类似的技术，就是按照key进行hash，相同的hash值 ...

Windowing functions&The OVER clause&Analytics functions 2018-11-08|Hive|Hive

目标 The OVER clause Analytics functions Windowing functions The OVER clause聚合函数是将多行数据按照规则聚合为一行，比如count()、sum()、min()、max()、avg() 窗口函数是在做聚合的基础上，要返回的数据不 ...

创建伪表&自定义UDF函数&MR解决数据倾斜的问题&行转列案例&列转行案例&使用hive实现wc&修改hadoop的URI带来的hive数据库路径问题&多文件多目录做wc或建表带来的问题 2018-11-07|Hive|Hive

目标创建伪表自定义UDF函数 MR解决数据倾斜的问题(引入) 行转列案例列转行案例使用hive实现wc 修改hadoop的URI带来的hive数据库路径问题多文件多目录做wc或建表带来的问题创建伪表创建表dual create table dual(a string); 创建数据并 ...

Order By&Sort By&Distribute By&Cluster By 2018-11-06|Hive|Hive

目标全局排序（Order By） Reduce内部排序（Sort By）分区排序（Distribute By） Cluster By 准备工作准备测试数据 7369 SMITH CLERK 7902 1980-12-17 800.00 207499 ALLEN SALESMAN 7698 ...

HS2&Hive的复杂数据结构&行列互转&常用函数&静动态分区表&桶表 2018-11-05|Hive|Hive

目标 HS2 复杂数据结构行列互转常用函数静动态分区表桶表 SH2HS2是HiveServer2的简称 HS2: Server端，默认端口10000 修改端口的方式是通过设置hive.server2.thrift.port的值 beeline: Client端连接方式: ./beel ...

Hive数据类型&DDL数据定义(增删查改)&DML数据操作(导入导出) 2018-11-04|Hive|Hive

Hive数据类型基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 ...

Hive的部署和初始化工作&验证Hive部署成功 2018-11-03|Hive|Hive

Hive安装部署Hive安装及配置把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下解压apache-hive-1.2.1-bin.tar.gz到/opt/module/目录下面 [hadoop@aliyun software]$ ta ...

谷粒影音8道SQL题(各种Top N) 2018-11-02|Hive|Hive

data表字段videoId string comment "视频唯一id", uploader string comment "视频上传者",age int comment "视频年龄",category array<string> comment "视频类别 ...