赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. 云服务器 ECS
  4. 实践教程
  5. 运维与监控最佳实践
  6. 网站业务的监控与告警

网站业务的监控与告警

  • 运维与监控最佳实践
  • 发布于 2025-04-01
  • 1 次阅读
文档编辑
文档编辑

云上业务通常涉及多种云产品及大量云资源,因此,实时了解系统业务的运行状况至关重要。这将有助于提前识别潜在问题,避免可能出现的业务故障,进而提升业务连续性。为实现上述目标,您需要为业务构建监控能力。本文将以通用网站业务架构为例,为您介绍使用云监控构建网站监控能力的一些思路和方法。

背景介绍

除了ECS,阿里云还为您提供多种可供选择的云产品,包括ALB、NAT、IPv6网关、OSS、RDS等。如需快速搭建完善的监控体系以覆盖众多云产品,您可以选择使用云监控。

云监控为云上用户提供开箱即用的企业级开放型一站式监控解决方案。云监控涵盖IT设施基础监控和外网网络质量拨测监控,基于事件、自定义指标和日志提供业务监控,为您全方位提供更高效、全面且节约成本的监控服务。使用云监控不仅可以帮助您提升系统服务的可用时长,还能够降低企业IT运维的监控成本。

前提条件

在开始设置云监控前,您需要完成以下操作:

  • 检查ECS监控插件运行情况,确保监控信息能够正常采集。如果安装失败则需要手动安装插件,具体操作,请参见云监控插件安装指南。

  • 提前添加报警联系人和联系组,具体操作,请参见创建报警联系人或报警联系人组。

整体思路

本文中以一个网站服务为示例,介绍如何为网站服务构建监控能力的思路。本示例中,使用的云产品包括ECS、RDS和负载均衡。

image

为上图所示的简单网站架构构建监控能力,通常可以遵循以下思路进行整体监控能力的构建。

  • 为ECS实例添加监控报警。

  • 为RDS MySQL数据库添加监控报警。

  • 为负载均衡SLB添加监控报警。

  • 构建站点监控能力。

  • 探测网站服务相关页面的性能与体验。

  • 管理系统事件服务。

  • 构建一个自定义监控大盘。

详细步骤

接下来,我们将按照上面的监控能力构建思路,通过阿里云的云监控产品,为示例网站应用构建监控能力,具体操作示例如下。

监控ECS实例

查看ECS监控指标

您可以通过云监控查看ECS实例的监控指标。

image

报警规则配置示例

说明

建议您根据实际业务情况设定各项监控指标的报警阈值。若阈值设置过低,将导致频繁触发报警,从而影响监控服务的体验;若阈值设置过高,则在触发阈值后,可能没有足够的预留时间来响应和处理告警。

您可以自定义报警级别与指标阈值,以实现告警信息的通知功能。建议根据实际业务需求为需要监控的ECS实例设置报警规则。以CPU使用率为例,应为服务器预留一定的处理性能以保障其正常运行。例如,设置CPU告警阈值为70%,在连续三次超过该阈值后开始触发报警。

设置CPU告警阈值

监控RDS MySQL实例

查看RDS监控指标

您可以通过云监控查看RDS MySQL的监控指标,以下是查看监控指标的示例。

image

报警规则配置示例

您可以自定义报警级别和指标阈值,以实现告警信息的通知能力。建议根据实际业务需求为您需要监控的ECS实例设置相应的报警规则。例如,可以将RDS的CPU使用率报警阈值设置为70%,并在连续三次超过该阈值后启动报警。同时,您也可以根据实际情况设置其他监控项,如硬盘使用率、IOPS使用率和连接数等。

设置RDS监控

监控SLB

查看SLB监控指标

您可以通过云监控功能查看各个云产品的监控指标,以下是监控指标的示例。

image

报警规则配置示例

您可以自定义报警级别和指标阈值,以实现告警信息的通知功能。建议您根据实际业务情况为所需监控的ECS实例设置相应的报警规则。为更有效地使用负载均衡的云监控服务,您需先启用负载均衡的健康检查,并根据实际情况设置报警规则,例如将负载均衡带宽值的告警阈值设定为7 Mbit/s。设置负载均衡监控

说明

关于更多云产品监控指标的查看及报警配置方法,请参见云产品监控。

构建站点监控能力

站点监控是云资源外层的监控服务,主要用于模拟真实用户的访问情况,实时测试业务的可用性,并有助于故障的排查与处理。

站点监控配置示例

image

查看站点监控示例

image

探测目标页面的性能与体验

如果您需要对您的网站进行网络质量分析、以便进行后续的开发、优化、质检与运营等,您可以为您的站点配置浏览器探测,相关操作,请参见探测目标页面的性能体验。

查看浏览器探测监控指标

image.png

管理系统事件服务

事件监控为您提供各云产品系统事件的统一查询和统计入口,使您及时了解各云产品的运行状态。这将帮助您在业务故障发生时,迅速分析并定位问题。有关云监控支持的各云产品及其系统事件的详细信息,请参见支持的云产品及其系统事件。

自定义监控大盘

如果您希望在一个监控大盘页面内查看所有云产品的自定义核心指标,可以通过云监控的Dashboard功能来实现这一需求。该功能允许为业务系统的云资源设置监控总览,从而便于随时检查整个业务系统资源的健康状态。如需了解更多自定义监控大盘的使用示例,请参见自定义监控概览。

image

查看监控报警信息

当指标满足预定义的报警条件时,您所配置的相应报警渠道,例如联系人的手机、邮箱及钉钉等,将会接收到来自云监控的告警信息。同时,您也可以在云监控控制台查看报警的历史相关报警信息。

image

相关文档

  • 关于如何快速构建主机监控能力,请参见快速构建主机监控能力。

  • 关于多云和混合云场景下的资源监控,请参见基于多云和混合云场景下的资源监控。

  • 关于如何通过企业监控大盘跨账号监控阿里云产品,请参见通过企业监控大盘跨账号监控阿里云产品。

相关文章

为实例开启或关闭内核崩溃转储服务 2025-04-01 11:57

内核崩溃转储服务可捕获内核错误并转储内存信息到磁盘,以便分析内核崩溃问题。本文介绍如何通过云助手为ECS实例开启或关闭内核崩溃转储服务。 背景信息 在实例运行过程中发生崩溃时,需要收集内核错误日志以及内核崩溃转储生成的内存快照,以便分析和定位问题,从而协助用户分析崩溃原因。

使用atop工具监控Linux系统指标 2025-04-01 11:57

atop是一款用于监控Linux系统资源与进程的工具,能够报告所有进程的活动。它以一定频率记录系统和进程的活动。当ECS实例出现问题时,您可以获取相应的atop日志文件进行分析。本文将介绍如何在Linux实例中安装、使用及自定义atop配置。

网站业务的监控与告警 2025-04-01 11:57

云上业务通常涉及多种云产品及大量云资源,因此,实时了解系统业务的运行状况至关重要。这将有助于提前识别潜在问题,避免可能出现的业务故障,进而提升业务连续性。为实现上述目标,您需要为业务构建监控能力。本文将以通用网站业务架构为例,为您介绍使用云监控构建网站监控能力的一些思路和方法。 背景介绍 除了ECS

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号