Hive中的字符集编码若干问题|Hive|Hive个人初始开发环境的基本情况以及Hive元数据库说明
hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置)
hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://ip:3306/metastore?createDatabaseIfNotExis ...
Read more
MR程序的资源申请参数|HadoopMapReduce|Hadoop-MapReduce设置方式
可以通过提交任务时, 在命令后面用 -D 来传入
也可以在代码中, 用conf.set() 来传入
也可以在工程的配置文件mapred-site.xml中配置
mapred-site.xml
一个MRAppMaster进程所需的内存数yarn.app.mapreduce.am.res ...
Read more
MR调优之压缩|HadoopMapReduce|Hadoop-MapReduce目录
什么是压缩
压缩的好处与坏处
常见的压缩格式
优缺点比较
如何选择压缩格式
MR配置文件压缩格式
Hive配置文件压缩格式
什么是压缩压缩就是通过某种技术(算法)把原始文件变小,相应的解压就是把压缩后的文件变成原始文件。嘿嘿是不是又可以变大又可以变小。
压缩的好处与坏处好处
减少存储磁盘空 ...
Read more
MapReduce使用压缩以及在MR中的通用做法|Hadoop|Hadoop上一步中我们在Hadoop中安装了lzo的压缩方式,现在将测试如何在MapReduce程序中使用压缩
在MapReduce中使用压缩,要注意三个位置,分别是map输入文件的压缩格式,map输出的压缩格式,和reduce最终输出的压缩格式
首先配置使用压缩
mapreduce.output.fil ...
Read more
HADOOP安装LZO压缩|Hadoop|Hadoop编译安装lzo与lzop 在集群的每一台主机上都需要编译安装!!!
下载编译安装lzo文件,版本可以下载最新的
wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
编译安装(保证主机上有gcc与g++)
t ...
Read more
数据倾斜&MRchain解决数据倾斜&大小表Reduce Join&大小表Map Join&SQL的执行计划|HadoopMapReduce|Hadoop-MapReduce目标
数据倾斜
MRchain解决数据倾斜
大小表Reduce Join
大小表Map Join
SQL的执行计划
数据倾斜
数据倾斜怎么造成的
mapreduce计算是将map相同的key丢到reduce,在reduce中进行聚合操作,在map和reduce中间有个shuffle操作,shuff ...
Read more
InputFormat&Partitioner&Conbiner&Sort&OutputFormat|HadoopMapReduce|Hadoop-MapReduce目标
InputFormat
Partitioner
Conbiner
Sort
OutputFormat
InputFormat在数据进入map之前,会进过一系列的格式化操作
在客户端submitJob()方法提交作业前,会获取配置信息,形成一个任务分配的规划
提交文件分片(文件夹)和应用程序 ...
Read more
Kafka集群和客户端不在同一个网段报错 -Batch containing 11 record(s) expired due to timeout while requesting metadata|生产故障案例|生产故障案例背景:Kafka集群在一个192.168.0.x网段的,而我们的生产者在192.168.17.x网段的一台机器上,故当生产者发送消息给Kafka时,无法将消息发送过去。
错误:11:21:13,936 ERROR KafkaProducer - Batch containing 11 record( ...
Read more
Spark、IDEA和Maven的环境准备&Hadoop的依赖以及常用API&WordCount Debug流程&map、reduce方法的参数类型和作用&瘦包在服务器上的jar包依赖|HadoopMapReduce|Hadoop-MapReduce目标
Spark、IDEA和Maven的环境准备
hadoop的依赖以及常用API
WordCount Debug流程
map、reduce方法的参数类型和作用
Writable和WritableComparable的作用
瘦包在服务器上的jar包依赖
Spark、IDEA和Maven的环境准备环 ...
Read more
YARN的调优&YARN的三种调度器|HadoopYarn|Hadoop-Yarn目录
梳理YARN资源调优参数
调度器整理三种,区别是什么,CDH默认是什么
YARN的资源调优背景: 假设每台服务器拥有内存128G 16物理core,怎么分配?
装完CentOS,消耗内存1G
系统预览15%-20%内存(包含1.1),以防全部使用导致系统夯住 和 oom机制事件,或者给未 ...
Read more