› 推特 ›阿里云技术文档›正文

本地盘实例系统事件概述_本地盘实例系统事件_系统事件_运维与监控_云服务器 ECS

admin 阿里云技术文档 2020-02-12 404 0

阿里云服务器优惠

本地盘实例系统事件概述

本文介绍了ECS本地盘实例发生系统事件时，相关阿里云运维流程和用户最佳实践。

常见运维场景

有关云服务器ECS提供的本地盘种类，请参见本地盘。本地盘实例常见的底层故障运维场景有如下三类：

场景一：所宿物理机软件问题导致实例异常
- 影响：通常原所宿物理机可以重启恢复，您的实例经历的是非预期重启。
- 用户后续动作：无。
场景二：本地盘损坏导致实例异常
- 影响：通常原所宿物理机可以重启恢复，已损坏本地盘不可恢复。
- 用户后续动作：您需要选择更换本地盘的方式，详情参见本地盘实例系统事件。
场景三：其他所宿物理机硬件损坏导致实例异常
- 影响：通常原所宿物理机需要下线维修。
- 用户后续动作：重新部署本地盘实例，为实例更换所宿物理机。按需同步数据，恢复实例和本地盘可用性。

以下为本地盘实例常见的运维场景流程图：

本地盘实例系统事件概述_本地盘实例系统事件_系统事件_运维与监控_云服务器 ECS 阿里云技术文档第1张

本地盘实例系统事件

在本地盘实例运行过程中，当阿里云检测到某块本地盘出现物理异常时，会向您发送相应的块存储系统事件提示该本地盘存在异常。块存储事件代码为ErrorDetected。在事件窗口期内，您可以选择以下两种处理方式：

重新部署本地盘实例
如需快速恢复本地盘可用性，并能够接受清空本地盘数据，您可以选择迁移实例到其他物理机恢复全部的数据盘容量，重新挂载和格式化数据盘。重新部署本地盘实例选项对应的系统事件代码为SystemMaintenance.Redeploy和SystemFailure.Redeploy。更多详情，请参见重新部署本地盘实例。
隔离损坏的本地盘
阿里云会尽快更换被隔离的受损本地盘，并在维护操作完成后，向您发送实例重启并更换受损本地盘的系统事件，您可以在事件窗口期内响应事件。根据事件阶段的变化，隔离坏盘选项对应的实例系统事件代码为SystemMaintenance.RebootAndIsolateErrorDisk和SystemMaintenance.RebootAndReInitErrorDisk。更多详情，请参见隔离损坏的本地盘。

隔离坏盘的业务流程和对应的事件状态变化如下图所示：

相关操作

对于需要重部署实例来更换受损本地盘的系统事件，请参见重新部署本地盘实例。
对于需要隔离坏盘来更换受损本地盘的系统事件，请参见隔离损坏的本地盘。
弹性裸金属服务器实例可以安装插件xdragon_hardware_detect_plugin，定期检测弹性裸金属服务器实例上的本地盘设备的健康状态。详细步骤请参见安装硬件检测插件。

版权声明

本文仅代表作者观点，不代表本站立场。
本文系作者授权发表，未经许可，不得转载。

评论

-----