感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

Spark性能优化指南 2019-10-26|Spark|Spark

Spark各个版本特性 2019-10-25|Spark|Spark

参考博客：https://www.maxinhong.com/2020/04/03/68.spark%E5%90%84%E4%B8%AA%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7/#more 各个版本特性（官方文档）https://spark.apache.org/r ...

SS+Kafka提交服务器&窗口函数&SS调优 2019-10-24|Spark|Spark

目录 SS+Kafka提交服务器窗口函数 SS调优 SS+Kafka提交服务器由于Spark自身没有spark-streaming-kafka的依赖，所以Spark Streaming+Kafka的Application跑在服务器上需要添加spark-streaming-kafka的依赖，共有三 ...

Spark 读写压缩文件的一次简单尝试 2019-10-23|Spark|Spark

前言我认为以节省存储空间为角度出发，Spark作业中的读写压缩文件是必不可少的话题，当然这在MR作业中也有体现和实际解决这种问题，现在我们就要在Spark中解决这种问题。如果需要安装Lzo可以看我的其他文章源文件是一份access的原始数据我们在上传到服务器上的时候，使用lzop命令压缩该文 ...

Kafka Offset管理 2019-10-22|Spark|Spark

Kafka中的每个partition都由一系列有序的、不可变的消息组成，这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号，用于partition唯一标识一条消息。 Offset记录着下一条将要发送给Consumer的消息的序号。 Offset从语义上来看拥 ...

SS黑名单管理&窗口&闭包&SS对接Kafka&KafkaRDD 2019-10-21|Spark|Spark

目录黑名单管理窗口闭包 SS对接Kafka KafkaRDD 黑名单管理Spark Streaming在计算流式数据时，有时候需要过滤一些数据，比如一些特殊的字段，或者利用爬虫爬取数据的恶意ip，又或者那些帮助某些无良商家刷广告的人，那么我们有一个黑名单，来过滤或者禁止他们的访问思路： ...

Spark Streaming简介&Spark Streaming的内部结构&StreamingContext对象&离散流（DStream）&IDEA开发Spark Streaming 2019-10-20|Spark|Spark

参考博客: https://vinxikk.github.io/2018/05/29/spark/ 目录 Spark Streaming简介 Spark Streaming的内部结构 StreamingContext对象离散流（DStream） IDEA开发Spark Streaming Sp ...

Idea加载Spark源码，并且在控制台查询SQL 2019-10-19|Spark|Spark

编译源码下载Spark源码本次案例，我们使用Apche版本，版本为：spark-2.4.5 下载链接：https://github.com/apache/spark 20200421更新：一般使用spark对应版本的scala编译最好，如果使用不同版本的scala编译，需要修改主pom文件 & ...

自定义外部Text数据源 2019-10-18|Spark|Spark

这里接着上次的解读jdbc数据源，现在我们自己实现一个text的外部数据源创建DefaultSource类实现RelationProviderTrait，注意这里的类名必须是DefaultSource，源码中写死了 class DefaultSource extends RelationPr ...

数据列自动推导&数据错误执行模式&UDAF&UDTF&解读Spark SQL执行计划优化 2019-10-17|Spark|Spark

目录数据列自动推导数据错误执行模式 UDAF UDTF 解读Spark SQL执行计划优化数据列自动推导源数据 a|b|c1|2|34|tunan|67|8|9.0 代码处理 def main(args: Array[String]): Unit = { val spark ...