Spark性能优化指南
Read more
Spark各个版本特性
参考博客:https://www.maxinhong.com/2020/04/03/68.spark%E5%90%84%E4%B8%AA%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7/#more 各个版本特性(官方文档)https://spark.apache.org/r ...
Read more
SS+Kafka提交服务器&窗口函数&SS调优
目录 SS+Kafka提交服务器 窗口函数 SS调优 SS+Kafka提交服务器由于Spark自身没有spark-streaming-kafka的依赖,所以Spark Streaming+Kafka的Application跑在服务器上需要添加spark-streaming-kafka的依赖,共有三 ...
Read more
Spark 读写压缩文件的一次简单尝试
前言我认为以节省存储空间为角度出发,Spark作业中的读写压缩文件是必不可少的话题,当然这在MR作业中也有体现和实际解决这种问题,现在我们就要在Spark中解决这种问题。 如果需要安装Lzo可以看我的其他文章 源文件是一份access的原始数据 我们在上传到服务器上的时候,使用lzop命令压缩该文 ...
Read more
Kafka Offset管理
Kafka中的每个partition都由一系列有序的、不可变的消息组成,这些消息被连续的追加到partition中。partition中的每个消息都有一个连续的序号,用于partition唯一标识一条消息。 Offset记录着下一条将要发送给Consumer的消息的序号。 Offset从语义上来看拥 ...
Read more
SS黑名单管理&窗口&闭包&SS对接Kafka&KafkaRDD
目录 黑名单管理 窗口 闭包 SS对接Kafka KafkaRDD 黑名单管理Spark Streaming在计算流式数据时,有时候需要过滤一些数据,比如一些特殊的字段,或者利用爬虫爬取数据的恶意ip,又或者那些帮助某些无良商家刷广告的人,那么我们有一个黑名单,来过滤或者禁止他们的访问 思路: ...
Read more
Spark Streaming简介&Spark Streaming的内部结构&StreamingContext对象&离散流(DStream)&IDEA开发Spark Streaming
参考博客: https://vinxikk.github.io/2018/05/29/spark/ 目录 Spark Streaming简介 Spark Streaming的内部结构 StreamingContext对象 离散流(DStream) IDEA开发Spark Streaming Sp ...
Read more
Idea加载Spark源码,并且在控制台查询SQL
编译源码 下载Spark源码 本次案例,我们使用Apche版本,版本为:spark-2.4.5 下载链接:https://github.com/apache/spark 20200421更新: 一般使用spark对应版本的scala编译最好,如果使用不同版本的scala编译,需要修改主pom文件 & ...
Read more
自定义外部Text数据源
这里接着上次的解读jdbc数据源,现在我们自己实现一个text的外部数据源 创建DefaultSource类实现RelationProviderTrait,注意这里的类名必须是DefaultSource,源码中写死了 class DefaultSource extends RelationPr ...
Read more
数据列自动推导&数据错误执行模式&UDAF&UDTF&解读Spark SQL执行计划优化
目录 数据列自动推导 数据错误执行模式 UDAF UDTF 解读Spark SQL执行计划优化 数据列自动推导 源数据 a|b|c1|2|34|tunan|67|8|9.0 代码处理 def main(args: Array[String]): Unit = { val spark ...
Read more