各个版本特性(官方文档)
https://spark.apache.org/releases/
https://spark.apache.org/news/index.html
Spark 0.6.x
- Standalone部署模式进行了简化
Spark 0.7
- Python API
- 增加Spark Streaming
- 支持maven build
Spark 0.8
- 支持MLlib库
- hadoop yarn正式支持
Spark 0.9
- 用SparkConf类来配置SparkContext
- spark streaming正式版发布
- GraphX的测试版出现
- mllib库升级,支持python
- core升级
Spark 1.0
- 提出spark-submit脚本和history-server
- yarn安全模式整合
- spark sql被提出
- java8的支持
Spark 1.1
- spark增强了磁盘(非内存)的排序的速率
Spark 1.2
- shuffle大升级
- Graphx正式版发布
Spark 1.3
- 新增DataFrame API
- Spark SQL正式脱离alpha版本
Spark 1.4
- 正式引入SparkR
- Spark Core为应用提供了REST API来获取各种信息
Spark 1.5
- Spark1.5重点是对性能的提升,引入钨丝项目,该项目通过对几个底层框架的重构进一步优化Spark性能
Spark 1.6
- 新增Dataset API
Spark 2.0
- 用sparksession实现hivecontext和sqlcontext统一
- 合并dataframe和datasets
Spark 2.1
- 提升ORC格式文件的读写性能
Spark 2.2
- Structured Streaming的生产环境支持已经就绪
Spark 2.3
- Structured Streaming 引入了低延迟的连续处理
- 支持 stream-to-stream joins
Spark 2.4
- Scala 2.12
- 添加了35个高阶函数