感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

Yarn的服务器资源容量参数 2018-10-11|HadoopYarn|Hadoop-Yarn

YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container是YARN中处理能力的基本单元, 是对内存, CPU等的封装. yarn-site.xml ...

迁移单节点MySQL到主备MySQL节点遇到的数据重刷故障案例 2018-10-11|生产故障案例|生产故障案例

起因: 是单节点 mysql 迁移到主备mysql ，测试环境测试了业务数据，但是没有测试功能，如发送短信。过程: MySQL的上游接着有Kafka和Redis，这两个组件中存着有最近的历史数据，在生产环境下数据重刷，导致短信数据重发，临时解决办法是马上kill进程，想到了将历史数据重刷，但是将 ...

HDFS Block损坏恢复 2018-10-10|生产故障案例|生产故障案例

上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "www.ruozedata.com" > ruozedata.md-bash-4.2$ hdfs dfs -put ruozedata.md /block ...

MR的执行流程&初探文件压缩&初探文件格式&分片数与任务数&shuffle的执行流程&WordCount的执行流程 2018-10-10|HadoopMapReduce|MapReduce-HDFS

目标整理 mr on yarn流程整理文件格式有哪些优缺点整理压缩格式有哪些优缺点 spilt–>map task关系 wordcount的剖解图 shuffle的理解 mr on yarn流程 mr on yarn的工作流程简略分为两步: 启动应用程序管理器，申请 ...

DataNode OOM溢出 2018-10-09|生产故障案例|生产故障案例

DataNode的内存溢出报错2017-12-17 23:58:14,422 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder: BP-1437036909-![img](file:///C:\Users\Ad ...

Hadoop的Pid文件 2018-10-09|HadoopHDFS|Hadoop-HDFS

存储位置hadoop启动之后，pid文件是存储哪里？我们可以通过查看 hadoop-env.sh文件 cat etc/hadoop/hadoop-env.sh从下图可以看出hadoop默认的pid文件是存储到/tmp目录的从下图可以看出hadoop默认的pid文件是存储到/tmp目录的从下图可 ...

Linux下MySQL进程死掉的可能解决方案 2018-10-08|MySQL|MySQL

linux下mysql进程死掉，且无法启动mysql服务，查看myql日志，发现如下日志： 2019-10-10 18:11:03 9772 [Note] InnoDB: Initializing buffer pool, size = 128.0MInnoDB: mmap(136019968 by ...

MySQL中的Top N 2018-10-08|MySQL|DataWarehouse-MySQL-Rank

切入点MySQL没有获取Top N的这种函数，但是在MySQL中求Top N又是必须掌握的点比如查询分组后的最大值、最小值所在的整行记录或者分组后的Top N行记录下面我们就如何在MySQL中求Top N做出深度的思考和验证准备工作测试表结构如下： >> CREATE TABLE ...

Hadoop2.7.6之前和Hadoop2.8.4之后的副本存放策略 2018-10-08|HadoopHDFS|Hadoop-HDFS

新旧版本的副本存放策略比较Hadoop2.7.6及以下版本是按照旧的策略进行副本存放的，官网文档描述如下：在常见情况下，当复制因子为3时，HDFS的放置策略是将一个副本放置在本地机架中的一个节点上，将另一个副本放置在本地机架中的另一个节点上，最后一个副本放置在不同机架中的另一个节点上。 Hado ...

数据重刷机制(抛砖引玉) 2018-10-07|MySQL|DataWarehouse-Data-SQL

先抛出几个问题存储是不是基石？假如存储不挂，数据真的准确吗？存储挂了，数据还准确吗？如何校验是否正确？如何让其正确？机制是不是必须有？注：sqoop抽数据，无error丢数据的概率很小数据质量校验：数据量校验 count相同吗？count相同内容相同吗？数据量相同–>数 ...