赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 云服务器 ECS
  4. 实践教程
  5. 稳定性最佳实践
  6. ECS容灾故障演练

ECS容灾故障演练

  • 稳定性最佳实践
  • 发布于 2025-04-01
  • 0 次阅读
文档编辑
文档编辑

本文详细介绍了ECS在云盘数据、镜像备份以及跨可用区的故障演练与恢复操作。

应用场景

场景

说明

云盘数据异常演练和恢复

当云盘数据出现异常或丢失时,可利用快照将云盘数据恢复至创建快照时的状态。通过故障注入和演练恢复,能够加深对相关操作的理解。

镜像备份的故障演练和恢复

镜像为ECS实例提供操作系统初始化的应用数据、预装软件和预配置数据,如果环境异常可以通过备份的镜像创建新的ECS实例,快速部署相同的操作系统和数据环境的ECS实例,以达到恢复的效果。通过故障注入和演练恢复,能够加深对操作的理解。

SMC跨可用区演练和恢复

当单可用区存在风险或已有风险需要将实例迁移至其他可用区时,可通过SMC实现跨可用区迁移。同时在迁移过程中,如果目标可用区规格售空,也可以选择变更实例类型选取新的实例规格。通过单机故障和网络不通模拟出现宕机一次的风险,通过SMC迁移实例至新可用区,以避免受到风险影响。

准备工作

  • 云盘数据与镜像备份演练:Linux操作系统实例,云助手为可用状态。具体操作,请参见创建ECS实例。

  • SMC跨可用区演练:Linux操作系统实例,并且有如下限制。

    • 不支持计费类型为抢占式实例。

    • 更换实例规格时,仅限同规格族内变配,不支持跨规格族更改实例规格。关于实例规格族的详细信息,请参见实例规格族。

      说明

      如果您想跨可用区更改到其他规格族,建议您执行跨可用区迁移操作后,再更改实例规格,具体操作,请参见更改包年包月实例规格或更改按量付费实例规格。

    • 以下实例规格族不支持跨可用区迁移。

      • 异构计算

      • 弹性裸金属服务器

      • 超级计算集群

      • 通用算力型实例规格族u1

      • 经济型实例规格族e

      • x86计算

        • 大数据型

        • 本地SSD型

        • 安全增强型

      • 8代实例规格族(g8ise、g8a、g8i、g8ae、g8y、c8a、c8i、c8ae、c8y、r8a、r8i、r8ae、r8y)

云盘数据异常演练和恢复

  1. 连接实例并输入以下命令新建模拟数据。

    远程连接实例具体操作,请参见使用Workbench工具以SSH协议登录Linux实例。

    touch hello.txt
    echo "Hello, World!" > hello.txt
  2. ECS实例云盘进行快照备份,具体操作,请参见创建快照。

  3. 故障注入。

    1. 输入以下命令,模拟数据误删除。

      rm hello.txt 
    2. 通过云助插件ecs-fault-oscrash模拟被攻击导致云服务器异常宕机。具体操作,请参见宕机演练。

      sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject

      image.png

  4. 验证故障注入。

    • ECS非预期运维事件中,出现因实例错误实例重启类型的事件,说明故障注入成功。

      image.png

    • 在ECS实例中,执行uptime,查看系统运行时间来确定ECS实例是否重启。

      image

  5. 通过云盘快照恢复数据。具体操作,请参见使用快照回滚云盘。

  6. 验证数据正常且删除的数据是否已经成功恢复。

    image

镜像备份的故障演练和恢复

  1. 连接实例并新建模拟数据。

    远程连接实例具体操作,请参见使用Workbench工具以SSH协议登录Linux实例。

    1. 输入以下命令,模拟新建数据。

      touch hello.txt
      echo "Hello, World!" > hello.txt
    2. 输入以下命令,查看系统环境。当前$MY_VAR环境变量数据为空。

      echo $MY_VAR

      image

  2. 对整个ECS实例的配置、操作系统、已安装的软件和数据进行全量备份。具体操作,请参见使用实例创建自定义镜像。

    image.png

  3. 故障注入。

    1. 输入以下命令,模拟数据误删除。

      rm hello.txt 
    2. 输入以下命令,模拟永久修改系统MY_VAR环境变量修改系统的运行环境。

      echo 'export MY_VAR="value"' >> ~/.bashrc && source ~/.bashrc

      image.png

    3. 通过云助插件ecs-fault-oscrash模拟被攻击导致云服务器异常宕机。具体操作,请参见宕机演练。

      sudo acs-plugin-manager --exec --plugin ecs-fault-oscrash --params inject

      image.png

  4. 验证故障注入。

    • ECS非预期运维事件中,出现因实例错误实例重启类型的事件,说明故障注入成功。

      image.png

    • 在ECS实例中,执行uptime,查看系统运行时间来确定ECS实例是否重启。

    • 宕机启动后查看hello.txt被删除且环境变量$MY_VAR是有效状态。

      image

  5. 使用预先备份的自定义镜像,创建具有相同操作系统、应用程序和数据的ECS实例,从而实现数据恢复。在同一地域的不同可用区中新建实例。具体操作,请参见使用自定义镜像创建实例。

  6. 登录使用自定义镜像创建ECS实例查看文件恢复,且环境变量也恢复到创建镜像时的状态。

    image

SMC跨可用区演练和恢复

  1. 连接实例并输入以下命令新建模拟数据。

    远程连接实例具体操作,请参见使用Workbench工具以SSH协议登录Linux实例。

    touch hello.txt
    echo "Hello, World!" > hello.txt
  2. 通过SMC将ECS云服务器迁移到同地域的不同可用区。具体操作,请参见跨可用区迁移操作。

    image.png

  3. 待迁移成功后登录验证,验证实例迁移到其他可用区且迁移前数据未发现丢失。

    image.png

相关文章

ECS主机状态变化事件的自动化运维 2025-04-01 11:57

本文通过实践案例为您介绍云监控如何通过轻量消息队列(原 MNS)的队列实现自动化处理ECS主机状态变化事件。 前提条件

ECS容灾恢复方案 2025-04-01 11:57

针对单可用区运行故障风险,通过数据备份与跨可用区迁移实现快速恢复,解决因成本限制或容灾要求较低导致的单点故障问题。本文从云盘数据、系统镜像及可用区故障场景,提供业务快速恢复的解决方案。 应用场景

ECS容灾故障演练 2025-04-01 11:57

本文详细介绍了ECS在云盘数据、镜像备份以及跨可用区的故障演练与恢复操作。 应用场景

GPU稳定性最佳实践 2025-04-01 11:57

随着AI、深度学习、科学计算和大数据处理等技术的发展,GPU成为高性能计算的关键组件。为保障服务器稳定运行,阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题。 重要

故障演练 2025-04-01 11:57

故障演练是实现系统稳定性保障的关键手段,它通过向系统注入可控的特定故障,以验证和促进系统的高可用性建设,以及训练相关人员应急能力、验证故障处理机制,从而减少真实故障发生时的故障恢复时间(MTTR,Mean Time To Repair)。阿里云提供了以ecs-fault-{scenename}或AC

更新补丁以提高ECS系统的安全性 2025-04-01 11:57

大多数企业在管理IT资产时通常会对其设置一些合规要求,要求及时修复系统漏洞以避免安全攻击,或者要求软件包的版本始终保持最新。在这种情况下,补丁管理就显得尤为重要。当您有扫描或安装补丁的需求,或者基于默认补丁基线安装补丁以及在补丁基线中进行定制,系统运维管理的ECS补丁管理操作可以轻松解决这些问题。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号