推特 阿里云技术文档正文

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版

admin 阿里云技术文档 2020-02-11 192 0
阿里云服务器优惠

Spark对接POLARDB快速入门

简介

POLARDB 是阿里云自研的下一代关系型云数据库,100% 兼容 MySQL,存储容量最高可达100 TB,性能最高提升至MySQL 的 6 倍,单库最多可扩展到 16 个节点,适用于企业多样化的数据库应用场景。本文主要介绍通过“数据工作台”使用Spark对接POLARDB的方法。

前置条件

  1. Spark集群和POLARDB在同一个VPC下。
    进入Spark分析集群页面,选择“数据库连接”>“连接信息”,查看Spark集群的VPC ID信息。如下图:

    Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第1张
  2. Spark集群关联POLARDB。
    进入Spark分析集群页面,选择“关联数据库”>“关联POLARDB”页面中,支持关联以及取消关联。如下图:

    Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第2张
  3. POLARDB已创建表,本实例使用的POLARDB表名为:test_table,数据库名为:testdb。建表语句和内容如下:

    1. #建表语句:
    2. CREATE TABLE `testdb`.`test_table` (
    3. `name` varchar(32) NULL,
    4. `age` INT NULL,
    5. `score` DOUBLE NULL
    6. )
    7. #插入数据语句:
    8. INSERT INTO `testdb`.`test_table` VALUES('aliyun01', 1001, 10.1);
    9. INSERT INTO `testdb`.`test_table` VALUES('aliyun02', 1002, 10.2);
    10. INSERT INTO `testdb`.`test_table` VALUES('aliyun03', 1003, 10.3);
    11. INSERT INTO `testdb`.`test_table` VALUES('aliyun04', 1004, 10.4);
    12. INSERT INTO `testdb`.`test_table` VALUES('aliyun05', 1005, 10.5);

使用“数据工作台”>“作业管理”运行样例

步骤 1:通过“资源管理”上传样例代码Jar包

下载样例代码jar包“spark-examples-0.0.1-SNAPSHOT.jar”以及依赖jar包到本地目录。

  1. wget https://spark-home.oss-cn-shanghai.aliyuncs.com/spark_example/spark-examples-0.0.1-SNAPSHOT.jar
  2. wget https://spark-home.oss-cn-shanghai.aliyuncs.com/spark_connectors/mysql-connector-java-5.1.34.jar

在“数据工作台”>“资源管理”中添加文件夹“spark_on_polardb”。
上传jar包“spark-examples-0.0.1-SNAPSHOT.jar”以及“mysql-connector-java-5.1.34.jar”到此文件夹。如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第3张

步骤 2:通过“作业管理”创建并编辑作业内容

在“数据工作台”>“作业管理”中创建Spark作业,作业内容如下:

  1. --class com.aliyun.spark.polardb.SparkOnPOLARDBSparkSession
  2. --jars /spark_on_polardb/mysql-connector-java-5.1.34.jar
  3. --driver-memory 1G
  4. --driver-cores 1
  5. --executor-cores 1
  6. --executor-memory 2G
  7. --num-executors 1
  8. --name spark_on_polardb
  9. /spark_on_polardb/spark-examples-0.0.1-SNAPSHOT.jar
  10. pc-xxx.rwlb.rds.aliyuncs.com:3306 testdb test_table xxx1 xxx2 spark_on_polardb_table

作业内容参数说明:

参数 说明
pc-xxx.rwlb.rds.aliyuncs.com:3306 POLARDB的“集群地址”、“主地址”和“SQL加速地址”三个之中任选一个。
testdb test_table 分别为POLARDB中的数据库名和表名。
xxx1 xxx2 分别为POLARDB中的数据库登陆的用户名和密码。
spark_on_polardb_table Spark中创建映射POLARDB表的表名。

如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第4张

步骤 3:通过“作业管理”运行作业并查看结果

作业编辑完成后点击“运行”,选择Spark集群。运行状态会在下侧显示,如图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第5张

运行成功后点击“YarnUI”,翻到最后看到如下结果表明Spark读取POLARDB成功。如下:

  1. +--------+----+-----+
  2. | name| age|score|
  3. +--------+----+-----+
  4. |aliyun01|1001| 10.1|
  5. +--------+----+-----+

使用“交互式查询”运行样例

步骤 1:通过“会话管理”创建会话

在“数据工作台”>“会话管理”中点击“创建会话”。填写“会话名称”:spark_on_polardb, 选择需要执行的Spark集群。

点击“确认”后,编辑“会话内容”,内容如下:

  1. --name spark_on_polardb
  2. --driver-memory 1G
  3. --driver-cores 1
  4. --executor-cores 1
  5. --executor-memory 2G
  6. --num-executors 1
  7. --jars /spark_on_polardb/mysql-connector-java-5.1.34.jar

内容编辑完成后,点击“运行”(此处点击运行是为了下一步骤中可以选择会话“spark_on_polardb”)。

如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第6张

步骤 2:通过“交互式查询”创建查询

进入“数据工作台”>“交互式查询”,在“会话列表”下拉框中选择“spark_on_polardb”,然后点击“新建查询”。填写“查询名称”:spark_on_polardb,“查询类型”选择“sql”。如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第7张

步骤 3:通过“交互式查询”编辑查询

查询输入如下内容:

  1. create table spark_on_polardb_t01
  2. using org.apache.spark.sql.jdbc
  3. options (
  4. driver 'com.mysql.jdbc.Driver',
  5. url 'jdbc:mysql://pc-xxx.rwlb.rds.aliyuncs.com:3306',
  6. dbtable 'testdb.test_table',
  7. user 'xxx1',
  8. password 'xxx2'
  9. )

如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第8张

建表语句关键字说明:

关键字 说明
pc-xxx.rwlb.rds.aliyuncs.com:3306 POLARDB的“集群地址”、“主地址”和“SQL加速地址”三个之中任选一个。
testdb test_table 分别为POLARDB中的数据库名和表名。
xxx1 xxx2 分别为POLARDB中的数据库登陆的用户名和密码。
spark_on_polardb_t01 Spark中创建映射POLARDB表的表名。

步骤 4:通过“交互式查询”运行查询

编辑查询后,点击“运行”;运行成功后,在“查询内容”中输入“select * from spark_on_polardb_t01”,然后点击“运行”验证结果,出现如下结果表示运行成功。如下图:

Spark对接POLARDB快速入门_Spark ETL&Streaming数据源连接器_X-Pack Spark计算服务_云数据库 HBase 版 阿里云技术文档 第9张

小结

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论

-----