赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. Serverless应用引擎(新版)
  4. 操作指南
  5. 运维管理
  6. 基础监控
  7. 通过Prometheus配置SAE Grafana大盘和报警规则

通过Prometheus配置SAE Grafana大盘和报警规则

  • 基础监控
  • 发布于 2025-04-17
  • 0 次阅读
文档编辑
文档编辑

Serverless 应用引擎 SAE(Serverless App Engine)平台的监控和数据源类型分丰富多样,这些指标都默认集成了阿里云可观测监控 Prometheus 版(Managed Service for Prometheus),且可观测监控 Prometheus 版已集成可观测可视化 Grafana 版。您可以通过Grafana共享版查看预置大盘,或通过创建计费版本的Grafana工作区对SAE的监控数据进行二次开发。

前提条件

您已开通SAE服务,并创建SAE应用。具体操作,请参见应用部署。

使用说明

  • 查看SAE平台预置的单应用Grafana大盘,例如单应用的基础监控大盘、ARMS应用监控大盘。

  • 查看和配置全局多应用的Grafana可观测大盘,包括全局所有应用、任务、实例、发布单等各维度指标的统计和Top N大盘,按需配置自定义监控大盘。使用该能力,实现 1人轻松运维成百上千个应用。

  • 通过Prometheus配置SAE各个指标的监控报警规则,保障业务的连续性与服务的高可用。

更多信息,请参见什么是可观测可视化 Grafana 版和Grafana。

功能入口

  1. 登录SAE控制台,在左侧导航栏选择应用管理 > 应用列表,然后选择目标地域和目标命名空间,最后单击目标应用名称。

    IXAcRBAUok

  2. 在目标应用基础信息页面的左侧导航栏,单击基础监控,然后再单击顶部提示信息中查看详情。

    • 基础监控大盘:页面会跳转至Grafana的基础监控大盘页面。大盘示例,请参见查看单应用的基础监控Grafana大盘。

    • 应用监控大盘:您可以单击页面左侧的image.png,返回Grafana的搜索页面。如需查看应用监控大盘,搜索关键词arms,找到以arms-metrics-<您应用所在的地域>-开头的目录,展开目录后,查看具体的监控指标。大盘示例,请参见查看单应用的ARMS监控Grafana大盘。

查看单应用的基础监控Grafana大盘

该大盘展示单个应用下全部实例维度和单个应用维度的监控指标。具体指标如下:

  • CPU使用率

  • 系统平均负载

  • 内存使用量

  • 网络流入流出速率

  • 网络数据包

  • 磁盘使用量

  • 磁盘IOPS

  • 磁盘吞吐率

  • TCP连接数

image.png

查看单应用的ARMS监控Grafana大盘

重要

SAE内置的ARMS监控能力适用于Java应用。

该大盘从API、Application、DB和Machine维度,展示监控指标。大盘内各指标含义,请参见应用监控指标说明。

  • API(应用总览监控视图)

    应用总览视图展示应用全局的请求数、RT和错误数,以及链路上下游的请求数、RT和错误数监控指标。

    image.png

  • Application(应用详情监控视图)

    应用详情视图包括服务调用(提供的服务和调用的服务)、JVM、实例等监控指标。

    image.png

  • DB(应用关联的数据库监控视图)

    应用关联的数据库监控视图包含请求数、错误数、RT、连接池等监控指标。

    sc_db_dashboard

  • Machine(应用实例监控视图)

    应用实例监控视图包含单个应用下具体实例IP的CPU、内存、负载、磁盘、网络流量和网络数据包等监控指标。

    sc_machine_dashboard

配置全局多应用的Grafana可观测大盘

重要

创建Grafana工作区会产生一定的费用。更多信息,请参见计费规则。

如果基础监控大盘和应用监控大盘不能满足您的需求,您可以通过配置全局可观测大盘,自定义更全面、更精细化的大盘数据,便于以全局视角及时发现当前问题,规避潜在风险,分析未来趋势。

  1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区。

    您可以在工作区管理页面,查看刚创建成功的目标工作区。

  2. 在工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE各项数据源。

    • 集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。

      在云服务集成列表中,选择Prometheus 服务监控,筛选集成对应地域的云产品SAE自监控数据源。

    • 集成ARMS数据源,该数据源包含SAE应用监控数据。

      在云服务集成列表中,选择ARMS 应用监控服务,集成对应地域的数据源。

    • 集成SLS数据源,该数据源包含SAE事件信息。

      在云服务集成列表中,选择SLS 日志服务,添加SLS数据源。具体操作,请参见云服务集成。

      创建数据源时,所属项目选择aliyun-product-data-{userId}-{regionId},logstore选择sae_event。image.png

      说明

      2023年04月28日前未部署过的应用,需重新部署后才会产生数据。

  3. 在Grafana中,导入大盘模板。

    输入各项大盘模板的ID,导入大盘模板并添加步骤2的数据源。如下图所示,导入数据源成功后,即可查看Grafana大盘。具体操作,请参见添加并使用Prometheus数据源。

    分类

    大盘ID

    导入数据源

    查看监控指标

    应用全局大盘

    18555

    sc_import_sae_application_dashboard_from_grafana

    sc_sae_application_overview_dashboard

    任务全局大盘

    18556

    sc_import_sae_job_dashboard_from_grafana

    sc_sae_job_overview_dashboard

    实例生命周期大盘

    19098

    sc_import_sae_instance_lifecycle_dashboard_from_grafana

    sc_sae_instance_lifecycle_dashboard

    发布单大盘

    19099

    sc_import_sae_changeorder_overview_dashboard_from_grafana

    sc_sae_changeorder_overview_dashboard

通过Prometheus配置SAE各个指标的监控告警规则

重要

创建Grafana工作区会产生一定的费用。更多信息,请参见计费规则。

通过集成Prometheus云服务监控的SAE数据源,您可以基于应用、任务、实例和发布单等SAE的关键业务指标,配置监控告警以保障业务的连续性与服务的高可用。

支持的SAE指标

Prometheus中内置的SAE业务指标明细如下。

应用相关指标

指标名称

类型

说明

单位

维度

app_replicas_count

gauge

应用目标实例数

个

"appId", "appName", "namespace"

app_available_replicas_count

gauge

应用可用实例数

个

"appId", "appName", "namespace"

任务相关指标

指标名称

类型

说明

单位

维度

job_active_count

gauge

任务正在运行数

个

"appId", "appName", "jobId", "namespace"

job_succeeded_count

gauge

任务运行成功数

个

"appId", "appName", "jobId", "namespace"

job_failed_count

gauge

任务运行失败数

个

"appId", "appName", "jobId", "namespace"

job_cost_time

gauge

任务执行耗时

s

"appId", "appName", "jobId", "namespace"

实例相关指标

指标名称

类型

说明

单位

维度

instance_state

gauge

实例运行状态,其中不同状态的数值映射如下:

  • 0:Pending

  • 1:PodInitializing

  • 2:Init

  • 3:ContainerCreating

  • 4:Running

  • 5:Terminating

  • 6:ImagePullBackOff

  • 7:ErrImagePull

  • 8:CrashLoopBackOff

  • 9:Error

  • 10:ContainerStatusUnknown, NotFound

  • 11:Completed

  • 12:Failed

  • -1:其他状态

无

"appId", "appName", "namespace", "instanceId"

发布单相关指标

指标名称

类型

说明

单位

维度

changeorder_count

counter

变更执行总数

个

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_success

counter

变更执行成功数

个

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_failed

counter

变更执行失败数

个

"appId", "appName", "namespace", "regionId","changeorderType"

changeorder_time

histogram

变更执行耗时

ms

"appId", "appName", "namespace", "regionId","changeorderType"

task_time

histogram

变更步骤耗时

ms

"appId", "appName", "namespace", "regionId", "taskType"

配置监控告警规则

  1. 集成SAE数据源。

    1. 创建Grafana工作区。具体操作,请参见创建Grafana工作区。

      您可以在工作区管理页面,查看刚创建成功的目标工作区。

    2. 在工作区管理页面,单击目标工具区名称,然后在工作区信息页面的云服务集成区域,集成SAE数据源。

      集成SAE数据源,该数据源包含SAE基础监控数据以及平台侧相关数据。

      在云服务集成列表中,选择Prometheus 服务监控,筛选集成对应地域的云产品SAE自监控数据源。

  2. 配置规则。

    集成SAE数据源后,登录Prometheus控制台并创建监控告警规则。具体操作,请参见创建Prometheus告警规则。

相关文章

SAE基础监控指标 2025-04-17 10:59

本文介绍云监控 CMS(Cloud Monitor)中Serverless 应用引擎 SAE(Serverless

查看基础监控数据 2025-04-17 10:59

应用托管到Serverless 应用引擎 SAE(Serverless App Engine)后,SAE对应用所运行设备的CPU、负载、内存、网络和磁盘进行数据采集与分析,并以动态图的方式展示,方便您实时、直观地了解应用所运行设备的状态。所有监控均以应用为单位进行数据统计和处理。

通过Prometheus配置SAE Grafana大盘和报警规则 2025-04-17 10:59

Serverless 应用引擎 SAE(Serverless App Engine)平台的监控和数据源类型分丰富多样,这些指标都默认集成了阿里云

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号