Yarn的服务器资源容量参数
YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container是YARN中处理能力的基本单元, 是对内存, CPU等的封装. yarn-site.xml ...
Read more
迁移单节点MySQL到主备MySQL节点遇到的数据重刷故障案例
起因: 是单节点 mysql 迁移到 主备mysql ,测试环境测试了业务数据,但是没有测试功能,如发送短信。 过程: MySQL的上游接着有Kafka和Redis,这两个组件中存着有最近的历史数据,在生产环境下数据重刷,导致短信数据重发,临时解决办法是马上kill进程,想到了将历史数据重刷,但是将 ...
Read more
HDFS Block损坏恢复
上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "www.ruozedata.com" > ruozedata.md-bash-4.2$ hdfs dfs -put ruozedata.md /block ...
Read more
MR的执行流程&初探文件压缩&初探文件格式&分片数与任务数&shuffle的执行流程&WordCount的执行流程
目标 整理 mr on yarn流程 整理 文件格式有哪些 优缺点 整理 压缩格式有哪些 优缺点 spilt–>map task关系 wordcount的剖解图 shuffle的理解 mr on yarn流程 mr on yarn的工作流程简略分为两步: 启动应用程序管理器,申请 ...
Read more
DataNode OOM溢出
DataNode的内存溢出报错2017-12-17 23:58:14,422 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder: BP-1437036909-![img](file:///C:\Users\Ad ...
Read more
Hadoop的Pid文件
存储位置hadoop启动之后,pid文件是存储哪里?我们可以通过查看 hadoop-env.sh文件 cat etc/hadoop/hadoop-env.sh从下图可以看出hadoop默认的pid文件是存储到/tmp目录的 从下图可以看出hadoop默认的pid文件是存储到/tmp目录的 从下图可 ...
Read more
Linux下MySQL进程死掉的可能解决方案
linux下mysql进程死掉,且无法启动mysql服务,查看myql日志,发现如下日志: 2019-10-10 18:11:03 9772 [Note] InnoDB: Initializing buffer pool, size = 128.0MInnoDB: mmap(136019968 by ...
Read more
MySQL中的Top N
切入点MySQL没有获取Top N的这种函数,但是在MySQL中求Top N又是必须掌握的点 比如查询分组后的最大值、最小值所在的整行记录或者分组后的Top N行记录 下面我们就如何在MySQL中求Top N做出深度的思考和验证 准备工作测试表结构如下: >> CREATE TABLE ...
Read more
Hadoop2.7.6之前和Hadoop2.8.4之后的副本存放策略
新旧版本的副本存放策略比较Hadoop2.7.6及以下版本是按照旧的策略进行副本存放的,官网文档描述如下: 在常见情况下,当复制因子为3时,HDFS的放置策略是将一个副本放置在本地机架中的一个节点上,将另一个副本放置在本地机架中的另一个节点上,最后一个副本放置在不同机架中的另一个节点上。 Hado ...
Read more
数据重刷机制(抛砖引玉)
先抛出几个问题 存储是不是基石? 假如存储不挂,数据真的准确吗? 存储挂了,数据还准确吗? 如何校验是否正确?如何让其正确?机制是不是必须有? 注:sqoop抽数据,无error丢数据的概率很小 数据质量校验:数据量校验 count相同吗?count相同内容相同吗? 数据量相同–>数 ...
Read more