故障演练 - 帮助文档

CPU利用率高演练 2025-04-01 11:57

CPU利用率是衡量业务系统是否健康的一个重要指标，为使业务达到足够的稳定性，CPU利用率需保持在合理的范围内。过高的CPU利用率会导致业务延迟甚至中断。通过注入高CPU故障，可以测试业务系统在特定CPU负载时的反应、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略，确保生产
内存溢出（OOM）演练 2025-04-01 11:57

通过注入进程不断消耗内存，模拟云服务器ECS发生OOM（即内存溢出）情况，测试业务进程是否会被终止、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略，确保生产环境发生OOM时系统能够迅速恢复正常运行，降低业务中断风险。什么是OOM和OOM Killer？
宕机演练 2025-04-01 11:57

服务器宕机是一种常见的故障现象，其根源来自于软件和硬件上发生的异常，且几乎无法避免。通过模拟内核故障造成的ECS宕机，可以测试业务系统在宕机时的反应、检测系统恢复能力、验证监控和告警机制的有效性等，并基于演练结果制定应对策略，确保生产环境发生宕机时系统能够迅速恢复正常运行，降低业务中断风险。实现原
网络丢包演练 2025-04-01 11:57

网络丢包是一种常见的网络故障，网络拥塞、网络硬件故障、网络链路干扰等情况都可能会造成网络丢包，通过此演练场景验证系统在网络丢包时的告警和恢复情况。使用限制该演练场景需要使用tc（Traffic Control）工具及其依赖的内核netem组件。
PID资源不足演练 2025-04-01 11:57

在操作系统中，PID（Process Identifier）是用于唯一标识进程的数字，可以在进程释放后被重复利用。虽然很难将PID资源耗尽，但仍存在意外耗尽的情况，导致新进程无法创建，可能会导致业务挂起，从而影响业务能力。因此，有必要模拟PID资源耗尽或主动模拟业务挂起的情况，以检测业务的高可用能力
磁盘IO Hang演练 2025-04-01 11:57

IO Hang是指在进行读或写操作时，系统因为某些原因无法完成这些操作，导致进程或系统无法继续正常工作的一种情况。其可以由多种原因引起，包括硬件故障、驱动问题、文件系统错误、网络延迟或拥塞等。这对业务产生性能下降，服务延迟，数据一致性问题等风险。通过此演练场景验证系统在磁盘发生IO Hang时的告警
网络中断演练 2025-04-01 11:57

ECS所在网络故障是一种常见场景，如发生硬件链路异常，运营商网络波动，系统配置等，都会造成网络无法连接，对外表现为ECS长时间不可用。因此通过该场景验证业务在其中某个节点不可用时的监控和恢复能力。实现原理同网络丢包100%，即使用云助手插件
系统时间跳变演练 2025-04-01 11:57

时间跳变指系统时钟突然发生变化。系统时间的准确性、系统各组件时间的一致性，对于生产系统至关重要，否则会导致依赖时间的各种服务异常，如日志、同步备份等。通过时间跳变演练可以验证系统在发生系统时间跳变时，能否及时同步恢复正确时间并恢复业务。实现原理本方案使用云助手插件ACS-ECS-Tim
磁盘IO高负载演练 2025-04-01 11:57

IO高负载是一种常见的故障现象，可能由于过高的业务进程负载、非预期的非业务进程占用、内存资源不足等因素导致。IO高负载可能会导致业务性能受损，数据丢失等风险。因此通过此演练场景验证系统在IO高负载时的告警和恢复情况。实现原理本方案使用云助手插件ACS-ECS-HighIo
网络延迟演练 2025-04-01 11:57

网络延迟直接影响应用程序和服务的响应速度，过高的网络延迟会影响用户的使用体验。网络流量增大、线路不稳定等情况都会增加网络延迟。通过此演练场景验证系统在网络延迟时的告警和恢复情况。使用限制该演练场景需要使用tc（Traffic Control）工具及其依赖的内核netem组件。