项目复盘

目录

  1. 任务分配问题
  2. hive问题
  3. etl代码问题
  4. 任务调度问题

任务分配问题

  1. 立项开始就需要梳理开发流程,精确到每一个开发环节。
  2. 开发定义好接口尽量并行开发。
  3. 建立规范、代码版本同步。
  4. 定义ods层表名,dws层表名。
  5. 有人跟踪项目进度有没有阻碍,进度落后需要帮忙

hive问题

  1. 建表需要加注释,规范表名。
  2. 重建外部表需要删除数据。

etl代码问题

  1. ip解析应该放在setup上。
  2. searcher 提到全局静态变量

任务调度

  1. 每个统计任务直接跟sqoop同步任务
  2. 数据倾斜group by 优化 skewindata = true
Author: Tunan
Link: http://yerias.github.io/2020/02/21/offlinedw/8.%E9%A1%B9%E7%9B%AE%E5%A4%8D%E7%9B%98/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.