赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 云服务器 ECS
  4. 实践教程
  5. 稳定性最佳实践
  6. ECS容灾恢复方案

ECS容灾恢复方案

  • 稳定性最佳实践
  • 发布于 2025-04-01
  • 0 次阅读
文档编辑
文档编辑

针对单可用区运行故障风险,通过数据备份与跨可用区迁移实现快速恢复,解决因成本限制或容灾要求较低导致的单点故障问题。本文从云盘数据、系统镜像及可用区故障场景,提供业务快速恢复的解决方案。

应用场景

场景

说明

云盘数据恢复

使用ECS快照,可对云盘进行快照回滚或通过快照创建新的云盘,将因数据丢失或误操作影响的云盘,快速恢复至创建快照时的状态。创建快照后的数据不会保留,适用于版本回溯型修复。

说明

使用ECS快照会产生快照容量费用。更多信息,请参见快照计费。

系统镜像恢复

使用自定义镜像,可对ECS实例进行全量备份与恢复,将因系统崩溃或配置错误影响的业务环境,快速还原至创建镜像时的状态。创建镜像后的数据不会保留,适用于系统级环境重建。

说明
  • 保有自定义镜像会收取自定义镜像关联的快照容量费用。

  • 如果自定义镜像的最终来源为付费镜像且您使用该自定义镜像创建ECS实例,则需要收取镜像License费用。

更多信息,请参见镜像计费。

跨可用区迁移

借助跨可用区迁移能力,可将业务系统及关联资源(云盘、镜像等)快速复制到目标可用区,规避单可用区物理故障导致的业务中断风险。跨可用区迁移将触发实例重启(公网IP可能变更/私有IP必变),若原可用区存储故障将导致迁移中断,建议业务低峰期操作。

说明
  • 迁移不需要提前备份,但单可用区云盘异常可能导致跨可用区迁移数据失败。

  • 跨可用区迁移可能会产生相关费用。更多信息,请参见跨可用区迁移计费。

云盘数据恢复

  1. 通过快照备份数据

    场景

    说明

    通过快照手动备份数据

    通过创建快照对系统盘/数据盘进行备份。具体操作,请参见创建快照。

    使用自动快照策略

    配置自动快照策略实现定期备份,具体操作,请参见使用自动快照。

    通过OOS创建多实例快照

    通过运维编排服务(OOS)对多台ECS实例的云盘批量创建快照,具体操作,请参见批量给云盘创建快照。

  2. 通过快照恢复数据

    场景

    说明

    使用快照回滚

    当云盘因为误删除、误修改或者因为勒索病毒的原因造成数据丢失时,使用云盘的历史快照可以对云盘进行回滚操作,从而使云盘的数据恢复到创建快照的时候的状态。具体操作,请参见使用快照回滚云盘。

    跨可用区恢复

    当前可用区的ECS实例和云盘均出现故障,可使用现有云盘的快照跨可用区创建新的云盘,并挂载到新建的ECS实例上,实现跨可用区的服务和数据恢复。具体操作,请参见使用快照创建云盘。

系统镜像恢复

  1. 通过镜像备份数据

    场景

    说明

    使用实例创建自定义镜像

    通过自定义实例配置(软件/环境)并创建镜像,可快速部署相同的实例。具体操作,请参见使用实例创建自定义镜像。

    使用快照创建自定义镜像

    基于现有系统盘快照生成完整环境镜像,实现系统环境快速复制。具体操作,请参见使用快照创建自定义镜像。

  2. 通过镜像恢复数据

    您可以使用已有镜像快速创建具有相同操作系统、应用程序和数据的ECS实例,通过镜像进行数据恢复。具体操作,请参见使用自定义镜像创建实例。

跨可用区迁移

服务器迁移中心(Server Migration Center,简称SMC)是阿里云提供给您的迁移平台。专注于提供能力普惠、体验一致、效率至上的迁移服务,满足您在阿里云的迁移需求。

迁移原理

跨可用区迁移原理如下图所示:

image

迁移原理说明如下:

  1. 用户创建跨可用区迁移任务。

  2. SMC服务调用底层块存储能力进行云盘数据跨可用区复制及其变更实例规格等属性。

迁移流程

跨可用区迁移流程如下图所示。

image

迁移流程说明如下:

  1. 迁移前准备

    在使用SMC进行ECS实例跨可用迁移前,您需要注册阿里云账号、完成实名认证、开通RAM服务、开通快照等。具体操作,请参见迁移前准备。

  2. 跨可用区迁移

    SMC支持将阿里云ECS云服务器迁移到同地域的不同可用区,同时也支持在同规格族内更改实例规格(vCPU和内存),满足您迁移ECS云服务器和变配实例规格的业务需求。具体操作,请参见跨可用区迁移操作。

  3. 验证迁移结果

    SMC支持多种迁移场景,您可以根据需要创建对应的迁移任务,完成迁移操作。具体操作,请参见验证迁移结果。

故障演练验证

  • 云盘数据异常演练和恢复

    在云盘数据异常或者丢失时,可以将云盘数据恢复到创建快照时的状态,通过故障注入和演练恢复能够加深对操作的理解。具体操作,请参见云盘数据异常演练和恢复。

  • 应用环境的故障演练和恢复

    基于预装镜像一键还原ECS实例,快速重建异常环境的操作系统及软件配置,保障业务连续性。具体操作,请参见镜像备份的故障演练和恢复。

  • SMC跨可用区演练和恢复

    使用SMC实现实例跨可用区迁移,支持目标区规格不足时动态调整实例类型,通过单区宕机模拟验证容灾有效性。具体操作,请参见SMC跨可用区演练和恢复。

相关文章

ECS主机状态变化事件的自动化运维 2025-04-01 11:57

本文通过实践案例为您介绍云监控如何通过轻量消息队列(原 MNS)的队列实现自动化处理ECS主机状态变化事件。 前提条件

ECS容灾恢复方案 2025-04-01 11:57

针对单可用区运行故障风险,通过数据备份与跨可用区迁移实现快速恢复,解决因成本限制或容灾要求较低导致的单点故障问题。本文从云盘数据、系统镜像及可用区故障场景,提供业务快速恢复的解决方案。 应用场景

ECS容灾故障演练 2025-04-01 11:57

本文详细介绍了ECS在云盘数据、镜像备份以及跨可用区的故障演练与恢复操作。 应用场景

GPU稳定性最佳实践 2025-04-01 11:57

随着AI、深度学习、科学计算和大数据处理等技术的发展,GPU成为高性能计算的关键组件。为保障服务器稳定运行,阿里云提供巡检服务以提前发现硬件故障,支持您通过自助诊断功能快速定位问题。 重要

故障演练 2025-04-01 11:57

故障演练是实现系统稳定性保障的关键手段,它通过向系统注入可控的特定故障,以验证和促进系统的高可用性建设,以及训练相关人员应急能力、验证故障处理机制,从而减少真实故障发生时的故障恢复时间(MTTR,Mean Time To Repair)。阿里云提供了以ecs-fault-{scenename}或AC

更新补丁以提高ECS系统的安全性 2025-04-01 11:57

大多数企业在管理IT资产时通常会对其设置一些合规要求,要求及时修复系统漏洞以避免安全攻击,或者要求软件包的版本始终保持最新。在这种情况下,补丁管理就显得尤为重要。当您有扫描或安装补丁的需求,或者基于默认补丁基线安装补丁以及在补丁基线中进行定制,系统运维管理的ECS补丁管理操作可以轻松解决这些问题。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号