稳定性最佳实践 - 帮助文档

ECS主机状态变化事件的自动化运维 2025-04-01 11:57

本文通过实践案例为您介绍云监控如何通过轻量消息队列（原 MNS）的队列实现自动化处理ECS主机状态变化事件。前提条件
ECS容灾恢复方案 2025-04-01 11:57

针对单可用区运行故障风险，通过数据备份与跨可用区迁移实现快速恢复，解决因成本限制或容灾要求较低导致的单点故障问题。本文从云盘数据、系统镜像及可用区故障场景，提供业务快速恢复的解决方案。应用场景
ECS容灾故障演练 2025-04-01 11:57

本文详细介绍了ECS在云盘数据、镜像备份以及跨可用区的故障演练与恢复操作。应用场景
GPU稳定性最佳实践 2025-04-01 11:57

随着AI、深度学习、科学计算和大数据处理等技术的发展，GPU成为高性能计算的关键组件。为保障服务器稳定运行，阿里云提供巡检服务以提前发现硬件故障，支持您通过自助诊断功能快速定位问题。重要
故障演练 2025-04-01 11:57

故障演练是实现系统稳定性保障的关键手段，它通过向系统注入可控的特定故障，以验证和促进系统的高可用性建设，以及训练相关人员应急能力、验证故障处理机制，从而减少真实故障发生时的故障恢复时间（MTTR，Mean Time To Repair）。阿里云提供了以ecs-fault-{scenename}或AC
更新补丁以提高ECS系统的安全性 2025-04-01 11:57

大多数企业在管理IT资产时通常会对其设置一些合规要求，要求及时修复系统漏洞以避免安全攻击，或者要求软件包的版本始终保持最新。在这种情况下，补丁管理就显得尤为重要。当您有扫描或安装补丁的需求，或者基于默认补丁基线安装补丁以及在补丁基线中进行定制，系统运维管理的ECS补丁管理操作可以轻松解决这些问题。
CPU利用率高演练 2025-04-01 11:57

CPU利用率是衡量业务系统是否健康的一个重要指标，为使业务达到足够的稳定性，CPU利用率需保持在合理的范围内。过高的CPU利用率会导致业务延迟甚至中断。通过注入高CPU故障，可以测试业务系统在特定CPU负载时的反应、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略，确保生产
自动恢复服务 2025-04-01 11:57

服务或脚本在运行过程中可能会因程序异常、服务器重启、掉电等情况而停止运行，如果不能及时恢复运行，会给线上业务造成损失。您可以通过云助手插件ecs-tool-servicekeepalive，使服务或脚本在被中断时快速恢复运行，保障服务的可靠性和持续性。方案原理该方案是基于Linux操作系
内存溢出（OOM）演练 2025-04-01 11:57

通过注入进程不断消耗内存，模拟云服务器ECS发生OOM（即内存溢出）情况，测试业务进程是否会被终止、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略，确保生产环境发生OOM时系统能够迅速恢复正常运行，降低业务中断风险。什么是OOM和OOM Killer？
自动监控和响应ECS系统事件 2025-04-01 11:57

阿里云提供了ECS系统事件用于记录和通知云资源信息，例如ECS实例的启停、是否到期、任务执行情况等。在大规模集群、实时资源调度等场景，如果您需要主动监控和响应阿里云提供的ECS系统事件，来实现故障处理、动态调度等自动化运维，可通过云助手插件ecs-tool-event实现。