Yarn的服务器资源容量参数|HadoopYarn|Hadoop-YarnYARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每个应用提供处理能力, Container是YARN中处理能力的基本单元, 是对内存, CPU等的封装.
yarn-site.xml
...
Read more
迁移单节点MySQL到主备MySQL节点遇到的数据重刷故障案例|生产故障案例|生产故障案例起因:
是单节点 mysql 迁移到 主备mysql ,测试环境测试了业务数据,但是没有测试功能,如发送短信。
过程:
MySQL的上游接着有Kafka和Redis,这两个组件中存着有最近的历史数据,在生产环境下数据重刷,导致短信数据重发,临时解决办法是马上kill进程,想到了将历史数据重刷,但是将 ...
Read more
HDFS Block损坏恢复|生产故障案例|生产故障案例上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "www.ruozedata.com" > ruozedata.md-bash-4.2$ hdfs dfs -put ruozedata.md /block ...
Read more
MR的执行流程&初探文件压缩&初探文件格式&分片数与任务数&shuffle的执行流程&WordCount的执行流程|HadoopMapReduce|MapReduce-HDFS目标
整理 mr on yarn流程
整理 文件格式有哪些 优缺点
整理 压缩格式有哪些 优缺点
spilt–>map task关系
wordcount的剖解图
shuffle的理解
mr on yarn流程
mr on yarn的工作流程简略分为两步:
启动应用程序管理器,申请 ...
Read more
DataNode OOM溢出|生产故障案例|生产故障案例DataNode的内存溢出报错2017-12-17 23:58:14,422 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: PacketResponder: BP-1437036909-|MySQL|DataWarehouse-Data-SQL先抛出几个问题
存储是不是基石?
假如存储不挂,数据真的准确吗?
存储挂了,数据还准确吗?
如何校验是否正确?如何让其正确?机制是不是必须有?
注:sqoop抽数据,无error丢数据的概率很小
数据质量校验:数据量校验 count相同吗?count相同内容相同吗?
数据量相同–>数 ...
Read more