Spark各个版本特性|Spark|Spark参考博客:https://www.maxinhong.com/2020/04/03/68.spark%E5%90%84%E4%B8%AA%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7/#more
各个版本特性(官方文档)https://spark.apache.org/r ...
Read more
SS+Kafka提交服务器&窗口函数&SS调优|Spark|Spark目录
SS+Kafka提交服务器
窗口函数
SS调优
SS+Kafka提交服务器由于Spark自身没有spark-streaming-kafka的依赖,所以Spark Streaming+Kafka的Application跑在服务器上需要添加spark-streaming-kafka的依赖,共有三 ...
Read more
Spark 读写压缩文件的一次简单尝试|Spark|Spark前言我认为以节省存储空间为角度出发,Spark作业中的读写压缩文件是必不可少的话题,当然这在MR作业中也有体现和实际解决这种问题,现在我们就要在Spark中解决这种问题。
如果需要安装Lzo可以看我的其他文章
源文件是一份access的原始数据
我们在上传到服务器上的时候,使用lzop命令压缩该文 ...
Read more
Kafka Offset管理|Spark|SparkKafka中的每个partition都由一系列有序的、不可变的消息组成,这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号,用于partition唯一标识一条消息。
Offset记录着下一条将要发送给Consumer的消息的序号。
Offset从语义上来看拥 ...
Read more
SS黑名单管理&窗口&闭包&SS对接Kafka&KafkaRDD|Spark|Spark目录
黑名单管理
窗口
闭包
SS对接Kafka
KafkaRDD
黑名单管理Spark Streaming在计算流式数据时,有时候需要过滤一些数据,比如一些特殊的字段,或者利用爬虫爬取数据的恶意ip,又或者那些帮助某些无良商家刷广告的人,那么我们有一个黑名单,来过滤或者禁止他们的访问
思路:
...
Read more
Spark Streaming简介&Spark Streaming的内部结构&StreamingContext对象&离散流(DStream)&IDEA开发Spark Streaming|Spark|Spark
参考博客: https://vinxikk.github.io/2018/05/29/spark/
目录
Spark Streaming简介
Spark Streaming的内部结构
StreamingContext对象
离散流(DStream)
IDEA开发Spark Streaming
Sp ...
Read more
Idea加载Spark源码,并且在控制台查询SQL|Spark|Spark编译源码
下载Spark源码
本次案例,我们使用Apche版本,版本为:spark-2.4.5
下载链接:https://github.com/apache/spark
20200421更新:
一般使用spark对应版本的scala编译最好,如果使用不同版本的scala编译,需要修改主pom文件
& ...
Read more
自定义外部Text数据源|Spark|Spark这里接着上次的解读jdbc数据源,现在我们自己实现一个text的外部数据源
创建DefaultSource类实现RelationProviderTrait,注意这里的类名必须是DefaultSource,源码中写死了
class DefaultSource extends RelationPr ...
Read more
数据列自动推导&数据错误执行模式&UDAF&UDTF&解读Spark SQL执行计划优化|Spark|Spark目录
数据列自动推导
数据错误执行模式
UDAF
UDTF
解读Spark SQL执行计划优化
数据列自动推导
源数据
a|b|c1|2|34|tunan|67|8|9.0
代码处理
def main(args: Array[String]): Unit = { val spark ...
Read more