Hive中的字符集编码若干问题
个人初始开发环境的基本情况以及Hive元数据库说明 hive的元数据库改成了mysql(安装完mysql之后也没有进行其它别的设置) hive-site.xml中设置元数据库对应的配置为 jdbc:mysql://ip:3306/metastore?createDatabaseIfNotExis ...
Read more
MR程序的资源申请参数
设置方式 可以通过提交任务时, 在命令后面用 -D 来传入 也可以在代码中, 用conf.set() 来传入 也可以在工程的配置文件mapred-site.xml中配置 mapred-site.xml 一个MRAppMaster进程所需的内存数yarn.app.mapreduce.am.res ...
Read more
MR调优之压缩
目录 什么是压缩 压缩的好处与坏处 常见的压缩格式 优缺点比较 如何选择压缩格式 MR配置文件压缩格式 Hive配置文件压缩格式 什么是压缩压缩就是通过某种技术(算法)把原始文件变小,相应的解压就是把压缩后的文件变成原始文件。嘿嘿是不是又可以变大又可以变小。 压缩的好处与坏处好处 减少存储磁盘空 ...
Read more
MapReduce使用压缩以及在MR中的通用做法
上一步中我们在Hadoop中安装了lzo的压缩方式,现在将测试如何在MapReduce程序中使用压缩 在MapReduce中使用压缩,要注意三个位置,分别是map输入文件的压缩格式,map输出的压缩格式,和reduce最终输出的压缩格式 首先配置使用压缩 mapreduce.output.fil ...
Read more
HADOOP安装LZO压缩
编译安装lzo与lzop 在集群的每一台主机上都需要编译安装!!! 下载编译安装lzo文件,版本可以下载最新的 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz 编译安装(保证主机上有gcc与g++) t ...
Read more
数据倾斜&MRchain解决数据倾斜&大小表Reduce Join&大小表Map Join&SQL的执行计划
目标 数据倾斜 MRchain解决数据倾斜 大小表Reduce Join 大小表Map Join SQL的执行计划 数据倾斜 数据倾斜怎么造成的 mapreduce计算是将map相同的key丢到reduce,在reduce中进行聚合操作,在map和reduce中间有个shuffle操作,shuff ...
Read more
InputFormat&Partitioner&Conbiner&Sort&OutputFormat
目标 InputFormat Partitioner Conbiner Sort OutputFormat InputFormat在数据进入map之前,会进过一系列的格式化操作 在客户端submitJob()方法提交作业前,会获取配置信息,形成一个任务分配的规划 提交文件分片(文件夹)和应用程序 ...
Read more
Kafka集群和客户端不在同一个网段报错 -Batch containing 11 record(s) expired due to timeout while requesting metadata
背景:Kafka集群在一个192.168.0.x网段的,而我们的生产者在192.168.17.x网段的一台机器上,故当生产者发送消息给Kafka时,无法将消息发送过去。 错误:11:21:13,936 ERROR KafkaProducer - Batch containing 11 record( ...
Read more
Spark、IDEA和Maven的环境准备&Hadoop的依赖以及常用API&WordCount Debug流程&map、reduce方法的参数类型和作用&瘦包在服务器上的jar包依赖
目标 Spark、IDEA和Maven的环境准备 hadoop的依赖以及常用API WordCount Debug流程 map、reduce方法的参数类型和作用 Writable和WritableComparable的作用 瘦包在服务器上的jar包依赖 Spark、IDEA和Maven的环境准备环 ...
Read more
YARN的调优&YARN的三种调度器
目录 梳理YARN资源调优参数 调度器整理三种,区别是什么,CDH默认是什么 YARN的资源调优背景: 假设每台服务器拥有内存128G 16物理core,怎么分配? 装完CentOS,消耗内存1G 系统预览15%-20%内存(包含1.1),以防全部使用导致系统夯住 和 oom机制事件,或者给未 ...
Read more