感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

Zookeeper的安装&使用 2020-03-02|Zookeeper|Zookeeper

目标什么是分布式为什么选择Zookeeper Zookeeper的设计目标 Zookeeper的数据模型安装Zookeeper 单节点配置Zookeeper 多节点配置Zookeeper Zookeeper的常用命令 Zookeeper的监听 Zookeeper四字命令什么是分布式分布式系 ...

项目复盘 2020-02-21|OfflineDW|OfflineDW

目录任务分配问题 hive问题 etl代码问题任务调度问题任务分配问题立项开始就需要梳理开发流程，精确到每一个开发环节。开发定义好接口尽量并行开发。建立规范、代码版本同步。定义ods层表名,dws层表名。有人跟踪项目进度有没有阻碍，进度落后需要帮忙 hive问题建表需要加注释， ...

Azkaban的安装&使用&坑 2020-02-20|Azkaban|Azkaban

目标 Azkaban的安装 Azkaban的使用 Git的安装 Git的安装在安装Azkaban之前要安装Git 获取github最新的Git安装包下载链接，进入Linux服务器，执行下载，命令为： wget https://github.com/git/git/archive/v2.17.0 ...

结果数据的展示 2020-02-20|OfflineDW|OfflineDW

由于时间忙不过来，这篇暂时不更新，仅作为维护项目的完整性存在。。。

业务数据的抽取 2020-02-19|OfflineDW|OfflineDW

由于时间忙不过来，这篇暂时不更新，仅作为项目的完整性存在。。。

数据仓库的分层 2020-02-18|OfflineDW|OfflineDW

系统架构图: 目标数据仓库为什么要分层数据仓库如何分层使用脚本将数据执行分层数据分析案例使用crontab调度脚本(临时) 数据仓库为什么要分层分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控，详细来讲，主要有下面几个原因：清晰数据结构，每一个数据分层都有它的作用域， ...

项目数据的ETL 2020-02-17|OfflineDW|OfflineDW

系统架构图: 目标为什么要进行ETL 什么是ETL ETL该怎么做 ETL在服务器上运行需要解决的问题为什么要进行ETL在上一步我们使用Flume采集数据到HDFS，从系统架构图来看现在要进行数据的ETL操作，ETL进程对数据进行规范化、验证、清洗，并最终装载进入数据仓库什么是ET ...

项目数据的采集 2020-02-16|OfflineDW|OfflineDW

系统架构图: 目标Flume是用来做什么的为什么要使用Flume Flume具体怎么用 java客户端上传消息到Flume写到HDFS 解决Flume采集数据时生成大量小文件的问题为什么要使用Flume在开源框架的选择中，因为Flume is a distributed, reliable, ...

项目开发的流程 2020-02-15|OfflineDW|OfflineDW

目标为什么是离线数据仓库采集什么日志技术实现流程为什么是离线数据仓库什么是数据仓库将多个数据源的数据经过ETL之后，按照一定的主题继承，提供决策支持和联机分析应用的结构化数据环境为什么要建数据仓库摆脱多种不同数据源、异构数据库、不同数据格式等等带来的问题采集用户行为日志既然要建 ...

项目开发的准备 2020-02-14|OfflineDW|Flume-OfflineDW

涉及到具体的文档，这里只描述流程目标项目调研需求分析方案设计项目调研是什么行业? 关于什么业务？调研人员(资深的产品经理/业务分析人员) 需求分析要做什么? 做成啥样? 需求(表层的需求、隐藏的需求、售前团队的需求) 产出(需求规格说明书、进度规划：甘特图) 人员(项目经 ...