赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 百度云
  3. 云服务器 BCC
  4. 操作指南
  5. 运维与监控
  6. 维修平台
  7. 维修平台接入说明

维修平台接入说明

  • 维修平台
  • 发布于 2025-04-02
  • 0 次阅读
文档编辑
文档编辑

维修平台已针对百度智能云所有用户开放,使用前请您确认已完成HAS组件的安装或升级,并在BCM里设置了相关的云产品事件的报警策略,保证故障的及时检测与通知。

HAS组件检查

硬件感知服务(Hardware-Aware Service,或称HAS)是一款线上硬件故障监控修复、功耗和资源管理工具,主要功能包括故障感知、功耗感知、资源感知、性能感知四大部分,提供了一系列的线上硬件的配置/状态监控,故障检测与修复,健康预警,功耗、擦除及相关硬件自动化管理功能,并提供统一的硬件资源状态查询、推送和管理接口。

存活状态查看

您可在实例列表页面查询HAS组件的存活状态,及时安装或更新HAS组件,保证硬件故障的及时检测与维修。

注:HAS Agent安装在宿主机上,BCC暂不涉及该组件,百度智能云会保证BCC宿主机上的HAS Agent保持在最新版本。 image.png

安装与升级

当您需要安装或升级HAS组件时,我们建议您按照下述指引重新安装,以获取到完整的、全方位的硬件感知能力,帮助您提高系统可用性,并能够顺利使用维修平台的完整能力。

环境确认

  1. 在安装或升级之前,您需要确认实例当前的操作系统是否符合要求。当前Has-agent可适配的操作系统主要面向linux os,包括Redhat、Centos、Ubuntu、Fedora、Debian、Slackware、欧拉。
  2. 检查域名has-master-a.sdns.baidu.com是否通,使用方法:ping has-master-a.sdns.baidu.com

升级组件

  • 在/tmp目录下执行:
curl -sm10 http://has-master-a.sdns.baidu.com/download/qa_packages/bbc/has-agent-installer-first.sh

执行输出如下:有个" ERROR: BIO_new_file ........ " ,告警可忽略,不影响升级 image.png

结果检测

  • 部署后等待10min,has会部署成功,目前是1.1.3.92版本。
  • 后续has升级后会自动升级,版本号的第一位或最后一位比现在的版本高都是新版,均符合预期。
  1. 检查自升级进程,单机上执行如下命令:
ps -ef|grep -v grep |grep "/opt/avalokita/bin/avalokita --update-url=http://has-master-a.sdns.baidu.com/download/qa"

出现保活、自升级进程:

/opt/avalokita/bin/avalokita --update-url=http://has-master-a.sdns.baidu.com/download/qa_packages/bbc//has-agent-installer.sh --signature-url=http://has-master-a.sdns.baidu.com/download/qa_packages/bbc//has-agent-installer.sh.sig --certificate=/home/opt/has-agent/cert.pem --update-interval=3600 --max-executable-size=1000000000 /home/opt/has-agent/has-agent-installer.sh image.png

  1. 检查has版本和主进程:
curl -s 127.0.0.1:428/self/basic 

image.png

ps -ef|grep has_client

image.png

  1. 查看资源版本:
  • 部署完成在/home/opt下会出现:has和has-agent。
  • 查看部署后包的版本如下:
使用cat /home/opt/has/VERSION |head -1

image.png

报警策略设置

在维修任务生成以及维修完成时,百度智能云会通过BCM给您推送相关信息,提醒您对故障实例“授权”维修,或者确认维修完成后,实例是否恢复正常。您可在BCM中设置云服务器与弹性裸金属服务器的“云产品事件”的告警策略,以便您能够成功接收到相应实例的告警信息。

  • 如无特殊要求,建议您将告警策略设置为对所有实例的所有故障事件的监控。
  • 您可以在“报警策略”的“云产品事件”中,查看已设置的告警策略,可以针对实际告警需求,设置多条不同的告警策略;也可随时对策略进行修改、删除等操作。 image (1).png image (2).png image (3).png
相关文章

维修平台概述 2025-04-02 17:55

实例在实际使用过程中会有极小概率出现硬件级别故障。百度智能云推荐对这些问题进行完整的维修处理,从而充分保证实例的可用性和业务的稳定运行。为给用户提供一套标准化的云服务器故障处理、授权维修方案,百度智能云提供用户维修平台功能。 维修平台是一个能够提供相关能力支持的工具,通过此平台,用户能够直接获取到涵

维修平台接入说明 2025-04-02 17:55

维修平台已针对百度智能云所有用户开放,使用前请您确认已完成HAS组件的安装或升级,并在BCM里设置了相关的云产品事件的报警策略,保证故障的及时检测与通知。

维修任务 2025-04-02 17:55

维修平台检测到实例故障时,会立即生成一条维修任务,并且在实例列表页面将对应实例显示为“待维修”状态。 您可以前往维修任务页面查看相关信息,包括维修任务ID、关联实例信息、故障名称等,并在维修任务界面进行授权维修等操作。在相关的维修任务生成后,百度智能云也会根据您在BCM(云监控产品)中设置的报警策略

预授权规则设置 2025-04-02 17:55

维修平台提供实例维修预授权功能,您可根据实例标签,设置维修的预授权规则,该规则对标签下的所有实例生效。当维修任务产生时,将按照正在启用中的预授权策略进行处理,立即开始维修,无需再单独操作授权。

维修记录查询 2025-04-02 17:55

维修平台提供维修记录功能,记录所有已完成的维修任务。 每条记录包含维故障发生时间、修任务创建时间、授权时间等维修全流程的各个时间点。 用户可根据故障名称、实例ID等搜索历史维修任务,查看发生相同故障的实例列表。 用户可根据故障发生时间、授权时间等类型,搜索一定时间段内的所有维修记录,回溯故障原因。

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号