Spark版本说明
关于升级
云HBase的Spark分析引擎,会不断的推出新功能、解决线上问题、优化性能。这些新特性会以小版本升级的方式交付到用户,为了不影响客户的业务,我们不会主动升级客户的集群,我们建议客户在业务低峰期自主升级小版本。
2.3.2
该版本Spark从社区2.3.2版本发展过来,增加了如下主要特性:
- 支持Spark特性包括 spark streaming、spark sql等
- 内置支持spark 分析hbase 、phoenix,控制台关联hbase集群
- 提供作业管理服务Livy、SQL提交服务Thrifserver
2.3.2.1
该版本主要上线数据工作台、发布spark-connectors、解决上一版本的相关问题、集群自带HDFS服务
- 数据工作台上线:支持资源管理、作业管理、工作流、报警
- 发布spark-connectors:目前包括phoenix-spark、alihbase-spark、mongo-spark,其他connector会持续发布
- 解决上一版本问题:解决作业运行完后Spark UI无法访问、master节点磁盘满、作业运行结束后临时目录回收、作业日志的自动滚动等
- 集群自带HDFS服务:作为Spark内表的默认存储,以及存储非结构化数据
2.4.3
该版本主要发布spark-connectors 1.0.4版本,升级spark内核到社区最新稳定版本2.4.3:
- Spark connectors:目前已经支持NoSQL系列:HBase&Phoenix、MongoDB、Redis、TableStore、ElasticSearch等;OLTP数据库:POLARDB、RDS、DRDS等;OLAP数据库:ADB;消息中间件:kafka、loghub、datahub;MaxCompute等;
- Spark 2.4.3版本核心功能,具体参考社区release note:
- 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当 地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
- 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
- Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
- 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)
- JDBC Connector支持 Date/Timestamp类型作为分区并发字段
- 支持 Scala 2.12。
2.4.3.1
该版本支持一键归档分析一期、解决spark访问phoenix5.x bug、交互式查询bug、同时支持用户使用x-pack spark发布的connector,以及使用开源的相关connector等问题
- 一键归档分析一期
- 支持批量归档分析RDS for mysql、polardb
- 流式增量归档分析hbase
- 数据工作台
- 支持SQL类型作业
- 作业支持配置参数,以及动态时间参数
- 解决spark 2.4.3版本和phoenix 5.x客户端包冲突问题
- 支持可以通过jdbcRDD对phoenix 5.x进行数据写入
- 解决spark sql对接phoenix 5.x timestamp字段无法下推问题
- 解决spark thriftserver对于;转义字符无法处理的问题
- 解决交互式查询pyspark遇到”java.lang.NoClassDefFoundError”问题
- 支持使用开源的hbase-connector、mongo、redis等connector
- 支持用户上传自定义的hbase-site
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论