BDS服务介绍
BDS 是阿里云针对HBase自主研发的一套迁移同步服务,主要帮助云上的客户进行自建HBase、云HBase集群的数据导入和导出。
概况
BDS可以用于HBase集群的无缝迁移、主备容灾、异地多活、在线离线业务分离、HBase数据归档、对接RDS实时增量数据等等,方便云上客户围绕HBase构建高可用、灵活的业务系统。
对BDS实现原理及优势感兴趣的朋友可以阅读《BDS - HBase数据迁移同步方案的设计与实践》
功能
功能 | 场景 | 使用链接 |
---|---|---|
HBase <-> HBase | 新旧集群无缝迁移、集群升配、在线离线业务分离、主备容灾、异地多活 | HBase集群迁移 HBase多集群实时数据同步 |
RDS -> HBase、Phoenix | 在线离线业务分离、历史库 | RDS全量数据迁移HBase、Phoenix RDS实时数据同步HBase、Phoenix |
HBase 数据导出 ODPS(MaxCompute) | 支持历史数据和增量数据 | HBase历史数据导出ODPS HBase实时数据归档ODPS |
HBase 数据导出 RocketMQ | 支持HBase实时增量数据同步到MQ | HBase实时数据同步MQ |
典型场景
新旧集群无缝迁移
使用范围
- HBase大版本升级, 1.x 升级 2.x
- 集群配置升级
- 集群网络的切换,经典切换VPC
- 异地跨机房迁移
- 业务拆分
迁移步骤
特点
- 不停服数据迁移,同时搞定历史数据迁移、实时增量数据的同步。
- 迁移过程中不会和源集群的HBase交互,只读取源集群的HDFS,尽可能减少对源集群在线业务的影响
- 文件层的数据拷贝比通常API层的数据迁移通常能节省50%以上的流量
- 高效性,单个节点迁移速度可达到100MB/s,节点数支持水平扩展,能够满足支持TB、PB级别的数据迁移
- 稳定性,有完善的错误重试机制,实时监控任务速度和进度,支持任务失败报警
- 正确性,能够进行数据校验
- 支持自动同步Schema,保证分区一致
在线离线业务分离
业务架构
通过BDS,将在线业务数据实时同步到离线集群,结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询
主备容灾
业务流程
通过BDS在主备集群之间实现实时数据的双向同步,当主集群出现问题,可以切换到备集群,尽可能减少对业务产生的影响,当主集群服务恢复之后,通过BDS同步服务补齐主集群遗漏的数据
RDS实时数据同步到HBase、Phoenix
业务架构
通过BDS将RDS数据实时同步到HBase集群
- 结合Spark、MR等大数据组件进行离线的数据分析,从而不影响在线业务的查询
- 利用HBase支持动态列的功能,将mysql中多张表构建成一张HBase的大宽表,避免在RDS中进行join查询
- 做RDS的历史库
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
评论