Zookeeper的安装&使用|Zookeeper|Zookeeper目标
什么是分布式
为什么选择Zookeeper
Zookeeper的设计目标
Zookeeper的数据模型
安装Zookeeper
单节点配置Zookeeper
多节点配置Zookeeper
Zookeeper的常用命令
Zookeeper的监听
Zookeeper四字命令
什么是分布式分布式系 ...
Read more
项目复盘|OfflineDW|OfflineDW目录
任务分配问题
hive问题
etl代码问题
任务调度问题
任务分配问题
立项开始就需要梳理开发流程,精确到每一个开发环节。
开发定义好接口尽量并行开发。
建立规范、代码版本同步。
定义ods层表名,dws层表名。
有人跟踪项目进度有没有阻碍,进度落后需要帮忙
hive问题
建表需要加注释, ...
Read more
Azkaban的安装&使用&坑|Azkaban|Azkaban目标
Azkaban的安装
Azkaban的使用
Git的安装
Git的安装在安装Azkaban之前要安装Git
获取github最新的Git安装包下载链接,进入Linux服务器,执行下载,命令为:
wget https://github.com/git/git/archive/v2.17.0 ...
Read more
结果数据的展示|OfflineDW|OfflineDW由于时间忙不过来,这篇暂时不更新,仅作为维护项目的完整性存在。。。
Read more
业务数据的抽取|OfflineDW|OfflineDW由于时间忙不过来,这篇暂时不更新,仅作为项目的完整性存在。。。
Read more
数据仓库的分层|OfflineDW|OfflineDW系统架构图:
目标
数据仓库为什么要分层
数据仓库如何分层
使用脚本将数据执行分层
数据分析案例
使用crontab调度脚本(临时)
数据仓库为什么要分层分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:
清晰数据结构,每一个数据分层都有它的作用域, ...
Read more
项目数据的ETL|OfflineDW|OfflineDW系统架构图:
目标
为什么要进行ETL
什么是ETL
ETL该怎么做
ETL在服务器上运行需要解决的问题
为什么要进行ETL在上一步我们使用Flume采集数据到HDFS,从系统架构图来看现在要进行数据的ETL操作,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据仓库
什么是ET ...
Read more
项目数据的采集|OfflineDW|OfflineDW系统架构图:
目标Flume是用来做什么的
为什么要使用Flume
Flume具体怎么用
java客户端上传消息到Flume写到HDFS
解决Flume采集数据时生成大量小文件的问题
为什么要使用Flume在开源框架的选择中,因为Flume is a distributed, reliable, ...
Read more
项目开发的流程|OfflineDW|OfflineDW目标
为什么是离线数据仓库
采集什么日志
技术实现流程
为什么是离线数据仓库什么是数据仓库将多个数据源的数据经过ETL之后,按照一定的主题继承,提供 决策支持 和 联机分析应用 的结构化数据环境
为什么要建数据仓库摆脱多种不同数据源、异构数据库、不同数据格式等等带来的问题
采集用户行为日志既然要建 ...
Read more
项目开发的准备|OfflineDW|Flume-OfflineDW
涉及到具体的文档,这里只描述流程
目标
项目调研
需求分析
方案设计
项目调研是什么行业?
关于什么业务?
调研人员(资深的产品经理/业务分析人员)
需求分析要做什么?
做成啥样?
需求(表层的需求、隐藏的需求、售前团队的需求)
产出(需求规格说明书、进度规划:甘特图)
人员(项目经 ...
Read more