Spark版本说明_X-Pack Spark计算服务_云数据库 HBase 版_阿里云技术文档

云HBase的Spark分析引擎，会不断的推出新功能、解决线上问题、优化性能。这些新特性会以小版本升级的方式交付到用户，为了不影响客户的业务，我们不会主动升级客户的集群，我们建议客户在业务低峰期自主升级小版本。

该版本Spark从社区2.3.2版本发展过来，增加了如下主要特性：

该版本主要上线数据工作台、发布spark-connectors、解决上一版本的相关问题、集群自带HDFS服务

数据工作台上线：支持资源管理、作业管理、工作流、报警
发布spark-connectors：目前包括phoenix-spark、alihbase-spark、mongo-spark，其他connector会持续发布
解决上一版本问题：解决作业运行完后Spark UI无法访问、master节点磁盘满、作业运行结束后临时目录回收、作业日志的自动滚动等
集群自带HDFS服务：作为Spark内表的默认存储，以及存储非结构化数据

该版本主要发布spark-connectors 1.0.4版本，升级spark内核到社区最新稳定版本2.4.3：

Spark connectors：目前已经支持NoSQL系列：HBase&Phoenix、MongoDB、Redis、TableStore、ElasticSearch等；OLTP数据库：POLARDB、RDS、DRDS等；OLAP数据库：ADB；消息中间件：kafka、loghub、datahub；MaxCompute等；
Spark 2.4.3版本核心功能，具体参考社区release note：
- 新的调度模型（Barrier Scheduling），使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中，以简化分布式训练工作流程。
- 添加了35个高阶函数，用于在 Spark SQL 中操作数组/map。
- Structured Streaming 的各种增强功能。例如，连续处理（continuous processing）中的有状态操作符。
- 内置数据源的各种性能改进。例如，Parquet 嵌套模式修剪（schema pruning）
- JDBC Connector支持 Date/Timestamp类型作为分区并发字段
- 支持 Scala 2.12。

该版本支持一键归档分析一期、解决spark访问phoenix5.x bug、交互式查询bug、同时支持用户使用x-pack spark发布的connector，以及使用开源的相关connector等问题

Spark版本说明_X-Pack Spark计算服务_云数据库 HBase 版