赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 云服务器 ECS
  4. 实践教程
  5. 稳定性最佳实践
  6. 故障演练
  7. CPU利用率高演练

CPU利用率高演练

  • 故障演练
  • 发布于 2025-04-01
  • 0 次阅读
文档编辑
文档编辑

CPU利用率是衡量业务系统是否健康的一个重要指标,为使业务达到足够的稳定性,CPU利用率需保持在合理的范围内。过高的CPU利用率会导致业务延迟甚至中断。通过注入高CPU故障,可以测试业务系统在特定CPU负载时的反应、检测系统恢复能力、验证监控和告警机制的有效性等,并基于演练结果制定应对策略,确保生产环境高CPU利用率时系统能够迅速恢复正常运行,降低业务中断风险。

实现原理

本方案使用云助手插件ecs-fault-highcpu,启动注入进程AliFaultHighCpu以特定占空比消耗CPU时间片。

使用指南

演练准备

请确保您的ECS实例已安装云助手Agent,并且云助手状态为正常。具体操作,请参见查看云助手状态及异常状态处理。

故障注入

  1. 使用具有sudo访问权限的用户,运行云助手插件ecs-fault-highcpu。

    sudo acs-plugin-manager --exec --plugin ecs-fault-highcpu --params inject,[cpu-percent=paramA],[cpu-list=paramB]

    []内为可选故障注入参数,参数说明:

    • cpu-percent(可选):要达到的CPU利用率,为空时默认100。

      说明

      cpu-percent为注入进程的CPU利用率,总CPU利用率还会受到其他进程的影响。

    • cpu-list(可选):用于对特定vCPU绑定负载,如cpu-list=0-2/4表示对core 0、core 1、core 2和core 4绑定CPU负载,为空时对全部vCPU绑定负载。

  2. 查看故障注入是否成功。

    • 在ECS实例中,执行top命令,CPU利用率上升,说明故障注入成功。其中内核态(sy)和用户态(us)之和约等于设置的CPU利用率。

      image

    • 在云监控监控图表中,注入后CPU利用率上升,说明故障注入成功。

      image

故障恢复

您可以使用以下方式,恢复ECS实例状态。

  • 方法一(推荐):在ECS实例中执行故障恢复命令,查看CPU利用率是否下降到故障注入前的水平。

    sudo acs-plugin-manager --exec --plugin ecs-fault-highcpu --params recover

    如下所示,CPU利用率已下降到故障注入前的水平,系统已恢复正常。

    image

  • 方法二:自行终止名为AliFaultHighCpu的进程。

    为不影响后续重复对该场景故障注入,终止AliFaultHighCpu进程后,再次执行方法一的故障恢复命令。

    sudo kill <AliFaultHighCpu PID>
相关文章

CPU利用率高演练 2025-04-01 11:57

CPU利用率是衡量业务系统是否健康的一个重要指标,为使业务达到足够的稳定性,CPU利用率需保持在合理的范围内。过高的CPU利用率会导致业务延迟甚至中断。通过注入高CPU故障,可以测试业务系统在特定CPU负载时的反应、检测系统恢复能力、验证监控和告警机制的有效性等,并基于演练结果制定应对策略,确保生产

内存溢出(OOM)演练 2025-04-01 11:57

通过注入进程不断消耗内存,模拟云服务器ECS发生OOM(即内存溢出)情况,测试业务进程是否会被终止、检测系统恢复能力、验证监控和告警机制的有效性等,并基于演练结果制定应对策略,确保生产环境发生OOM时系统能够迅速恢复正常运行,降低业务中断风险。 什么是OOM和OOM Killer?

宕机演练 2025-04-01 11:57

服务器宕机是一种常见的故障现象,其根源来自于软件和硬件上发生的异常,且几乎无法避免。通过模拟内核故障造成的ECS宕机,可以测试业务系统在宕机时的反应、检测系统恢复能力、验证监控和告警机制的有效性等,并基于演练结果制定应对策略,确保生产环境发生宕机时系统能够迅速恢复正常运行,降低业务中断风险。 实现原

网络丢包演练 2025-04-01 11:57

网络丢包是一种常见的网络故障,网络拥塞、网络硬件故障、网络链路干扰等情况都可能会造成网络丢包,通过此演练场景验证系统在网络丢包时的告警和恢复情况。 使用限制 该演练场景需要使用tc(Traffic Control)工具及其依赖的内核netem组件。

PID资源不足演练 2025-04-01 11:57

在操作系统中,PID(Process Identifier)是用于唯一标识进程的数字,可以在进程释放后被重复利用。虽然很难将PID资源耗尽,但仍存在意外耗尽的情况,导致新进程无法创建,可能会导致业务挂起,从而影响业务能力。因此,有必要模拟PID资源耗尽或主动模拟业务挂起的情况,以检测业务的高可用能力

磁盘IO Hang演练 2025-04-01 11:57

IO Hang是指在进行读或写操作时,系统因为某些原因无法完成这些操作,导致进程或系统无法继续正常工作的一种情况。其可以由多种原因引起,包括硬件故障、驱动问题、文件系统错误、网络延迟或拥塞等。这对业务产生性能下降,服务延迟,数据一致性问题等风险。通过此演练场景验证系统在磁盘发生IO Hang时的告警

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号