本文介绍了ECS本地盘实例发生系统事件时,相关阿里云运维流程和用户最佳实践。

常见运维场景

有关云服务器ECS提供的本地盘种类,请参见本地盘。本地盘实例常见的底层故障运维场景有如下三类:

  • 场景一:所宿物理机软件问题导致实例异常
    • 影响:通常原所宿物理机可以重启恢复,您的实例经历的是非预期重启。
    • 用户后续动作:无。
  • 场景二:本地盘损坏导致实例异常
    • 影响:通常原所宿物理机可以重启恢复,已损坏本地盘不可恢复。
    • 用户后续动作:您需要选择更换本地盘的方式,详情参见本地盘实例系统事件
  • 场景三:其他所宿物理机硬件损坏导致实例异常
    • 影响:通常原所宿物理机需要下线维修。
    • 用户后续动作:重新部署本地盘实例,为实例更换所宿物理机。按需同步数据,恢复实例和本地盘可用性。

以下为本地盘实例常见的运维场景流程图:


本地盘实例系统事件概述_本地盘实例系统事件_系统事件_运维与监控_云服务器 ECS 阿里云技术文档 第1张

本地盘实例系统事件

在本地盘实例运行过程中,当阿里云检测到某块本地盘出现物理异常时,会向您发送相应的块存储系统事件提示该本地盘存在异常。块存储事件代码为ErrorDetected。在事件窗口期内,您可以选择以下两种处理方式:
  • 重新部署本地盘实例

    如需快速恢复本地盘可用性,并能够接受清空本地盘数据,您可以选择迁移实例到其他物理机恢复全部的数据盘容量,重新挂载和格式化数据盘。重新部署本地盘实例选项对应的系统事件代码为SystemMaintenance.RedeploySystemFailure.Redeploy。更多详情,请参见重新部署本地盘实例

  • 隔离损坏的本地盘

    阿里云会尽快更换被隔离的受损本地盘,并在维护操作完成后,向您发送实例重启并更换受损本地盘的系统事件,您可以在事件窗口期内响应事件。根据事件阶段的变化,隔离坏盘选项对应的实例系统事件代码为SystemMaintenance.RebootAndIsolateErrorDiskSystemMaintenance.RebootAndReInitErrorDisk。更多详情,请参见隔离损坏的本地盘

    隔离坏盘的业务流程和对应的事件状态变化如下图所示:
    本地盘实例系统事件概述_本地盘实例系统事件_系统事件_运维与监控_云服务器 ECS 阿里云技术文档 第2张

相关操作

  • 对于需要重部署实例来更换受损本地盘的系统事件,请参见重新部署本地盘实例
  • 对于需要隔离坏盘来更换受损本地盘的系统事件,请参见隔离损坏的本地盘
  • 弹性裸金属服务器实例可以安装插件xdragon_hardware_detect_plugin,定期检测弹性裸金属服务器实例上的本地盘设备的健康状态。详细步骤请参见安装硬件检测插件