Zookeeper的安装&使用
目标 什么是分布式 为什么选择Zookeeper Zookeeper的设计目标 Zookeeper的数据模型 安装Zookeeper 单节点配置Zookeeper 多节点配置Zookeeper Zookeeper的常用命令 Zookeeper的监听 Zookeeper四字命令 什么是分布式分布式系 ...
Read more
项目复盘
目录 任务分配问题 hive问题 etl代码问题 任务调度问题 任务分配问题 立项开始就需要梳理开发流程,精确到每一个开发环节。 开发定义好接口尽量并行开发。 建立规范、代码版本同步。 定义ods层表名,dws层表名。 有人跟踪项目进度有没有阻碍,进度落后需要帮忙 hive问题 建表需要加注释, ...
Read more
Azkaban的安装&使用&坑
目标 Azkaban的安装 Azkaban的使用 Git的安装 Git的安装在安装Azkaban之前要安装Git 获取github最新的Git安装包下载链接,进入Linux服务器,执行下载,命令为: wget https://github.com/git/git/archive/v2.17.0 ...
Read more
结果数据的展示
由于时间忙不过来,这篇暂时不更新,仅作为维护项目的完整性存在。。。
Read more
业务数据的抽取
由于时间忙不过来,这篇暂时不更新,仅作为项目的完整性存在。。。
Read more
数据仓库的分层
系统架构图: 目标 数据仓库为什么要分层 数据仓库如何分层 使用脚本将数据执行分层 数据分析案例 使用crontab调度脚本(临时) 数据仓库为什么要分层分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因: 清晰数据结构,每一个数据分层都有它的作用域, ...
Read more
项目数据的ETL
系统架构图: 目标 为什么要进行ETL 什么是ETL ETL该怎么做 ETL在服务器上运行需要解决的问题 为什么要进行ETL在上一步我们使用Flume采集数据到HDFS,从系统架构图来看现在要进行数据的ETL操作,ETL进程对数据进行规范化、验证、清洗,并最终装载进入数据仓库 什么是ET ...
Read more
项目数据的采集
系统架构图: 目标Flume是用来做什么的 为什么要使用Flume Flume具体怎么用 java客户端上传消息到Flume写到HDFS 解决Flume采集数据时生成大量小文件的问题 为什么要使用Flume在开源框架的选择中,因为Flume is a distributed, reliable, ...
Read more
项目开发的流程
目标 为什么是离线数据仓库 采集什么日志 技术实现流程 为什么是离线数据仓库什么是数据仓库将多个数据源的数据经过ETL之后,按照一定的主题继承,提供 决策支持 和 联机分析应用 的结构化数据环境 为什么要建数据仓库摆脱多种不同数据源、异构数据库、不同数据格式等等带来的问题 采集用户行为日志既然要建 ...
Read more
项目开发的准备
涉及到具体的文档,这里只描述流程 目标 项目调研 需求分析 方案设计 项目调研是什么行业? 关于什么业务? 调研人员(资深的产品经理/业务分析人员) 需求分析要做什么? 做成啥样? 需求(表层的需求、隐藏的需求、售前团队的需求) 产出(需求规格说明书、进度规划:甘特图) 人员(项目经 ...
Read more