赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 云服务器 ECS
  4. 实践教程
  5. 稳定性最佳实践
  6. 故障演练
  7. 系统资源演练
  8. 系统负载高演练

系统负载高演练

  • 系统资源演练
  • 发布于 2025-04-01
  • 0 次阅读
文档编辑
文档编辑

系统负载load是衡量系统工作量的一个指标,具体的表示为:在特定时间间隔内,系统处于可运行状态和不可中断状态的平均进程数。监控负载load是一个重要指标,可以判断当前业务的负载情况,用于及时告警并做出应对措施。

实现原理

本方案使用云助手插件ACS-ECS-HighLoad,通过vfork命令创建出预期数量的进程,以达到目标的load值,每个进程创建后执行sleep动作,直至超时退出。因此该场景对系统业务影响较小。

使用指南

演练准备

请确保您的ECS实例已安装云助手Agent,并且云助手状态为正常。具体操作,请参见查看云助手状态及异常状态处理。

故障注入

  1. 登录ECS实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例。

  2. 使用具有sudo访问权限的用户,运行云助手插件ACS-ECS-HighLoad。

    sudo acs-plugin-manager --exec --plugin ACS-ECS-HighLoad --params inject,[num-processes=paramA],[duartion=paramB]

    []内为可选故障注入参数,参数说明:

    • num-processes(可选):需要创建的进程数量,该值略会近似预期达到的最大load值,默认100。

    • duartion(可选):持续时间,默认为300s。

    显示如下所示时,说明云助手插件ACS-ECS-HighLoad已启动。

    image

  3. 查看故障注入是否成功。

    • 使用top命令,分别检查1分钟、5分钟、15分钟系统负载的指标。

    • 在云监控中检查系统负载曲线。

故障恢复

  • 方法一(推荐):等待超时自动恢复。

  • 方法二:在ECS实例中执行故障恢复命令。

    sudo acs-plugin-manager --exec --plugin ACS-ECS-HighLoad --params recover

演练示例

  1. 故障注入

    sudo acs-plugin-manager --exec --plugin ACS-ECS-HighLoad --params inject

    返回如下所示,表示注入成功,

    image

  2. 查看注入效果。

    • 使用top命令中查看系统负载,如下图所示,1 min为98.33,5 min为58.24,15 min为32.66。image

    • 在云监控控制台查看平均负载。

      image

  3. 等待故障恢复。

    • 等待超时,系统负载会慢慢恢复。如下图,1 min的负载已经低于5 min的负载,说明已经在恢复中。

      image

    • 执行故障恢复命令。

      sudo acs-plugin-manager --exec --plugin ACS-ECS-HighLoad --params recover
相关文章

PID资源不足演练 2025-04-01 11:57

在操作系统中,PID(Process Identifier)是用于唯一标识进程的数字,可以在进程释放后被重复利用。虽然很难将PID资源耗尽,但仍存在意外耗尽的情况,导致新进程无法创建,可能会导致业务挂起,从而影响业务能力。因此,有必要模拟PID资源耗尽或主动模拟业务挂起的情况,以检测业务的高可用能力

系统时间跳变演练 2025-04-01 11:57

时间跳变指系统时钟突然发生变化。系统时间的准确性、系统各组件时间的一致性,对于生产系统至关重要,否则会导致依赖时间的各种服务异常,如日志、同步备份等。通过时间跳变演练可以验证系统在发生系统时间跳变时,能否及时同步恢复正确时间并恢复业务。 实现原理 本方案使用云助手插件ACS-ECS-Tim

系统负载高演练 2025-04-01 11:57

系统负载load是衡量系统工作量的一个指标,具体的表示为:在特定时间间隔内,系统处于可运行状态和不可中断状态的平均进程数。监控负载load是一个重要指标,可以判断当前业务的负载情况,用于及时告警并做出应对措施。 实现原理 本方案使用云助手插件ACS-ECS-HighLoad,

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号