Spark各个版本特性

参考博客:https://www.maxinhong.com/2020/04/03/68.spark%E5%90%84%E4%B8%AA%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7/#more


各个版本特性(官方文档)

https://spark.apache.org/releases/
https://spark.apache.org/news/index.html

Spark 0.6.x

  • Standalone部署模式进行了简化

Spark 0.7

  • Python API
  • 增加Spark Streaming
  • 支持maven build

Spark 0.8

  • 支持MLlib库
  • hadoop yarn正式支持

Spark 0.9

  • 用SparkConf类来配置SparkContext
  • spark streaming正式版发布
  • GraphX的测试版出现
  • mllib库升级,支持python
  • core升级

Spark 1.0

  • 提出spark-submit脚本和history-server
  • yarn安全模式整合
  • spark sql被提出
  • java8的支持

Spark 1.1

  • spark增强了磁盘(非内存)的排序的速率

Spark 1.2

  • shuffle大升级
  • Graphx正式版发布

Spark 1.3

  • 新增DataFrame API
  • Spark SQL正式脱离alpha版本

Spark 1.4

  • 正式引入SparkR
  • Spark Core为应用提供了REST API来获取各种信息

Spark 1.5

  • Spark1.5重点是对性能的提升,引入钨丝项目,该项目通过对几个底层框架的重构进一步优化Spark性能

Spark 1.6

  • 新增Dataset API

Spark 2.0

  • 用sparksession实现hivecontext和sqlcontext统一
  • 合并dataframe和datasets

Spark 2.1

  • 提升ORC格式文件的读写性能

Spark 2.2

  • Structured Streaming的生产环境支持已经就绪

Spark 2.3

  • Structured Streaming 引入了低延迟的连续处理
  • 支持 stream-to-stream joins

Spark 2.4

  • Scala 2.12
  • 添加了35个高阶函数
Author: Tunan
Link: http://yerias.github.io/2019/10/25/spark/25/
Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.