感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

Hive中的字符集编码若干问题 2018-11-01|Hive|Hive

个人初始开发环境的基本情况以及Hive元数据库说明 hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://ip:3306/metastore?createDatabaseIfNotExis ...

MR程序的资源申请参数 2018-10-17|HadoopMapReduce|Hadoop-MapReduce

设置方式可以通过提交任务时, 在命令后面用 -D 来传入也可以在代码中, 用conf.set() 来传入也可以在工程的配置文件mapred-site.xml中配置 mapred-site.xml 一个MRAppMaster进程所需的内存数yarn.app.mapreduce.am.res ...

MR调优之压缩 2018-10-16|HadoopMapReduce|Hadoop-MapReduce

目录什么是压缩压缩的好处与坏处常见的压缩格式优缺点比较如何选择压缩格式 MR配置文件压缩格式 Hive配置文件压缩格式什么是压缩压缩就是通过某种技术（算法）把原始文件变小，相应的解压就是把压缩后的文件变成原始文件。嘿嘿是不是又可以变大又可以变小。压缩的好处与坏处好处减少存储磁盘空 ...

MapReduce使用压缩以及在MR中的通用做法 2018-10-15|Hadoop|Hadoop

上一步中我们在Hadoop中安装了lzo的压缩方式，现在将测试如何在MapReduce程序中使用压缩在MapReduce中使用压缩，要注意三个位置，分别是map输入文件的压缩格式，map输出的压缩格式，和reduce最终输出的压缩格式首先配置使用压缩 mapreduce.output.fil ...

HADOOP安装LZO压缩 2018-10-15|Hadoop|Hadoop

编译安装lzo与lzop 在集群的每一台主机上都需要编译安装！！！下载编译安装lzo文件，版本可以下载最新的 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz 编译安装(保证主机上有gcc与g++) t ...

数据倾斜&MRchain解决数据倾斜&大小表Reduce Join&大小表Map Join&SQL的执行计划 2018-10-14|HadoopMapReduce|Hadoop-MapReduce

目标数据倾斜 MRchain解决数据倾斜大小表Reduce Join 大小表Map Join SQL的执行计划数据倾斜数据倾斜怎么造成的 mapreduce计算是将map相同的key丢到reduce，在reduce中进行聚合操作,在map和reduce中间有个shuffle操作，shuff ...

InputFormat&Partitioner&Conbiner&Sort&OutputFormat 2018-10-13|HadoopMapReduce|Hadoop-MapReduce

目标 InputFormat Partitioner Conbiner Sort OutputFormat InputFormat在数据进入map之前，会进过一系列的格式化操作在客户端submitJob()方法提交作业前，会获取配置信息，形成一个任务分配的规划提交文件分片(文件夹)和应用程序 ...

Kafka集群和客户端不在同一个网段报错 -Batch containing 11 record(s) expired due to timeout while requesting metadata 2018-10-12|生产故障案例|生产故障案例

背景：Kafka集群在一个192.168.0.x网段的，而我们的生产者在192.168.17.x网段的一台机器上，故当生产者发送消息给Kafka时，无法将消息发送过去。错误：11:21:13,936 ERROR KafkaProducer - Batch containing 11 record( ...

Spark、IDEA和Maven的环境准备&Hadoop的依赖以及常用API&WordCount Debug流程&map、reduce方法的参数类型和作用&瘦包在服务器上的jar包依赖 2018-10-12|HadoopMapReduce|Hadoop-MapReduce

目标 Spark、IDEA和Maven的环境准备 hadoop的依赖以及常用API WordCount Debug流程 map、reduce方法的参数类型和作用 Writable和WritableComparable的作用瘦包在服务器上的jar包依赖 Spark、IDEA和Maven的环境准备环 ...

YARN的调优&YARN的三种调度器 2018-10-11|HadoopYarn|Hadoop-Yarn

目录梳理YARN资源调优参数调度器整理三种，区别是什么，CDH默认是什么 YARN的资源调优背景: 假设每台服务器拥有内存128G 16物理core，怎么分配？装完CentOS，消耗内存1G 系统预览15%-20%内存(包含1.1)，以防全部使用导致系统夯住和 oom机制事件，或者给未 ...