当生产站点因为不可抗力因素(比如火灾、地震)或者设备故障(软、硬件破坏)导致应用在短时间内无法恢复时,混合云容灾服务支持业务的跨可用区(Zone)的容灾能力,对整体的应用做容灾备份来应对单地区的故障,满足业务的RTO/RPO核心指标。

准备工作

在实现跨可用区容灾之前,您需要选择一个其他可用区创建云上专有网络(VPC),并在目的端创建复制网络交换机和恢复网络交换机,详情请参见搭建云上专有网络

步骤一:创建容灾站点对

准备工作完成后,请按如下步骤对源站ECS进行跨可用区容灾保护。

  1. 登录混合云容灾管理控制台
  2. 单击创建容灾站点对 > 连续复制型容灾
  3. 创建连续复制型容灾站点对页面,类型选择可用区容灾到可用区,并选择准备工作中为主从站创建好的VPC。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第1张
  4. 单击创建

步骤二:添加被保护服务器

连续复制型容灾站点对创建完成后,按以下步骤添加被保护服务器:

  1. 单击已创建的容灾站点对,在容灾中心的受保护服务器页签,单击+添加
  2. 添加被保护服务器页面,选择已创建的ECS实例,单击确认
    服务器状态显示客户端安装中,随后显示已初始化

    如果服务器状态未显示已初始化,请单击更多 > 服务器操作 > 重启服务器以完成初始化。

步骤三:启动复制

启动容灾复制,将服务器复制到云上,并维持实时复制。

  1. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作按钮,选择更多 > 故障切换 > 启动复制
  2. 启动复制对话框中,分别选择恢复点策略,是否使用SSD、根据搭建云上专有网络文档说明,选择用于复制网络恢复网络的交换机。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第2张
  3. 单击启动
    此时,容灾复制会先后进入启动复制全量复制实时复制中三个阶段。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第3张
    • 启动复制:混合云容灾服务正在扫描系统数据,评估总体数据量,这一阶段通常会持续几分钟。
    • 全量复制:混合云容灾服务正在把整台服务器的有效数据传输到阿里云,这一阶段所用时间取决于服务器数据量、网络带宽等因素。控制台进度条将会展示复制进度。
    • 实时复制中:全量复制完成后,阿里云上已经复制了您的全量数据,然后 AReS 将会在服务器上监视所有对磁盘的写操作,并持续地实时复制到阿里云。

(可选)容灾演练

一旦进入实时复制状态,您就可以对服务器进行容灾演练操作了。

容灾演练将被容灾保护的服务器在云上拉起并验证应用正确性,是容灾流程整体中及其重要的一环,它的核心意义在于:

  • 方便地验证被容灾保护的应用可以在云上正常拉起。
  • 确保操作人员熟悉容灾恢复流程,确保在主站真正发生故障时,操作人员可以顺畅地进行容灾切换。

容灾演练操作步骤如下:

  1. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作栏下的容灾演练
  2. 容灾演练对话框中,填写CPU内存信息、选择恢复网络IP地址、是否使用SSD、选择恢复点弹性公网IP切换后执行脚本跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第4张
    说明 混合云容灾服务会自动为每个服务器保留最近 24 小时的 24 个恢复点。
  3. 单击启动
    此时,阿里云会在后台基于用户选定的时间点将服务器拉起。后台容灾演练过程中,实时数据复制不受影响。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第5张
  4. 几分钟后,您会看到容灾演练完成,单击容灾演练信息下的链接,验证数据与应用。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第6张
  5. 验证完成后,您需要单击该服务器对应的操作栏下的清空演练环境,此时恢复出来的ECS就会被删除。
    说明 容灾演练恢复出来的ECS验证完成后,建议尽快清空演练环境,以降低费用支出。

步骤四:故障切换

定期的容灾演练保证了您的业务可以随时在云上拉起。而当您的主站发生重大故障,需要在云上马上重启核心业务时,就需要进行故障切换操作了。

警告 故障切换操作适用于被保护服务器已经出现严重故障的的情形,进行该操作会停掉实时复制流程。您需要重新启动复制,并完成一次全量复制才能对被保护服务器继续进行容灾保护。

故障切换步骤如下:

  1. 在连续复制型容灾的受保护服务器页签中,单击要启动容灾复制的服务器对应的操作栏下的更多 > 故障切换 > 故障切换
  2. 故障切换对话框中,填写CPU内存信息、选择恢复网络IP地址、是否使用SSD、选择恢复点弹性公网IP切换后执行脚本
    注意 当前时间恢复点只能使用一次。
  3. 单击启动
  4. 故障切换完成后,您可以在单击故障切换/故障恢复信息下的链接,检查数据和应用。跨可用区容灾_连续复制型容灾(CDR)_混合云容灾服务 阿里云技术文档 第7张
    • 如果检查后发现当前时间点应用运行正常,可以直接单击更多 > 故障切换 > 确认故障切换操作。
      说明 在故障切换或者切换恢复点完成,并且已经确认被容灾保护的服务器恢复出的应用已经接管了业务的情况下,完成故障切换操作是为了清理容灾复制在云上占用的资源,节约资源使用。
    • 如果检查后发现当前时间点应用状态不符合要求,例如数据库一致性问题,或者源端被污染的数据已经被同步到另一个可用区,请在确认故障切换前,单击更多 > 故障切换 > 切换恢复点操作。
    说明 切换恢复点操作与故障切换操作类似,仅需选择更早的恢复点即可。

步骤五:反向复制

被保护服务器的应用完成某个可用区(如可用区A)容灾复制到另一个可用区(如可用区B)后,还可以实施反向复制,即从可用区B反向复制到可用区A。

  1. 在连续复制型容灾的受保护服务器页签中,单击操作栏下的更多 > 故障恢复 > 反向注册后,确认反向注册被保护服务器。
  2. 单击操作栏下的更多 > 故障恢复 > 启动反向注册
  3. 启动反向复制页面,选择是否勾选原机恢复,然后选择复制网络恢复网络
    警告 跨地域及跨可用区容灾支持原机恢复。当使用原机恢复时,所使用的ECS主机中的数据会被清除,请谨慎选择。
  4. 单击启动
  5. 待服务器进入反向实时复制状态时,单击操作栏下的更多 > 故障恢复 > 故障恢复
  6. 故障恢复页面,填写CPU内存信息、选择恢复网络IP地址、编辑恢复后执行脚本
  7. 故障恢复完成后,单击操作栏下的更多 > 故障切换 > 注册,再次注册被保护服务器。

更多参考