赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 弹性容器实例 ECI
  4. 操作指南
  5. AIOps套件
  6. AIOps套件概述

AIOps套件概述

  • AIOps套件
  • 发布于 2025-04-15
  • 0 次阅读
文档编辑
文档编辑

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,提升运维效率。本文介绍AIOps套件优势、集群检查、集群巡检和集群诊断。

索引

  • 优势

  • 集群检查

  • 集群巡检

  • 集群诊断

优势

AIOps套件由集群检查、集群巡检、集群诊断等一系列工具组成,具有以下优势。

功能

优势

集群检查

在执行集群运维操作之前会先触发集群检查,评估集群是否符合运维操作需求,提升了运维变更的成功率。

集群巡检

通过设置巡检的定时规则,定期预警集群存在的风险。

集群诊断

提供了一整套集群诊断工具,包括Pod诊断、节点诊断、Ingress诊断、内存诊断,降低问题排查难度。

说明

AIOps套件支持ACK标准版、ACK Pro版、ACK专有版和ACK Serverless集群Pro版。

集群检查

集群检查覆盖核心运维操作,例如集群升级、集群迁移、组件安装、组件升级等。正式执行这些运维操作前会自动触发相应的检查,仅当集群检查通过后方可执行对应的运维操作。针对失败的检查项,提供了可视化的失败原因及修复方案。更多信息,请参见集群检查。

集群巡检

得益于大量集群管理实践,容器服务平台沉淀了众多典型案例,并从中积累了丰富的集群巡检经验。集群巡检提供了以下功能。

  • 支持扫描集群运行状况,发现集群中存在的潜在风险。

  • 支持定期检查集群资源水位、资源配额、集群证书、组件版本等信息,提供了可视化的检查结果。

  • 对于异常项,列出了风险级别,提供了解决方案,便于用户自行运维。

更多信息,请参见集群巡检。

集群诊断

集群诊断提供一键故障诊断能力,辅助您定位集群中出现的问题,包括Pod诊断、节点诊断、Service诊断、Ingress诊断、内存诊断。

诊断项

说明

Pod诊断

涵盖了常见的Pod问题,例如Pod启动失败、Pod镜像拉取失败、Pod运行异常等,并在发现异常时给出相应的根因及修复方案。

节点诊断

涵盖了常见的节点问题,例如节点NotReady、Node网络异常、运行时异常等,并在发现异常时给出相应的根因及修复方案。

Service诊断

涵盖了常见的Service问题,例如Service异常事件、SLB后端服务器配额、SLB实例数配额等,并在发现异常时给出相应的根因及修复方案。

Ingress诊断

收集Ingress组件检查、启动参数配置、Ingress Pod错误日志、Ingress Controller SLB等信息,用于诊断应用访问异常。

内存诊断

覆盖ACK集群常见的内存问题,例如内存泄漏、内存碎片化、cgroup泄漏等,并以图表的方式展示内存整体使用情况。

相关文章

AIOps套件概述 2025-04-15 17:15

Kubernetes是一个大规模分布式的容器编排引擎,由于其复杂性,管理与运维集群都需要较深的领域知识。为降低Kubernetes集群运维管理的难度,容器服务平台提供了AIOps套件。AIOps套件包括集群检查、集群巡检和集群诊断,可以帮助您排查问题,提升运维效率。本文介绍AIOps套件优势、集群检

添加授权 2025-04-15 17:15

使用诊断或巡检服务时,您需要为服务账号授予容器智能运维服务角色,容器智能运维才能正常地调用相关服务(ECS、CS、VPC、SLB等),为您提供集群检查和诊断等服务。本文介绍容器智能运维服务角色包含的权限。 一键授权服务角色 首次使用容器智能运维服务时,您需要为服务账号授予服务角色AliyunCISD

Pod诊断 2025-04-15 17:15

容器服务平台提供Pod诊断功能,帮助您诊断异常的Pod信息。本文介绍Pod诊断的检查项以及对应的修复方案。 容器服务平台构建了基于专家经验的故障诊断系统,并基于海量数据训练了AI智能故障诊断模型。Pod诊断融合了基于专家经验和AI智能诊断两种诊断模式,进一步深

Service诊断 2025-04-15 17:15

容器智能运维平台提供Service诊断功能,帮助您诊断Service常见问题。本文介绍Service诊断对应的检查项以及修复方案。

Ingress诊断 2025-04-15 17:15

容器智能运维平台提供Ingress诊断功能,帮助您诊断Ingress常见问题。本文介绍Ingress诊断对应的检查项以及修复方案。

启用集群检查 2025-04-15 17:15

容器服务平台提供了集群检查能力。您可以在集群升级、迁移等操作前执行集群检查,确认集群是否符合要求。 前提条件

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号