赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 操作指南
  5. 诊断GPU状态
  6. 通过控制台自助排查功能诊断GPU

通过控制台自助排查功能诊断GPU

  • 诊断GPU状态
  • 发布于 2025-04-14
  • 1 次阅读
文档编辑
文档编辑

GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险,例如显卡故障、驱动程序错误等问题,ECS管理控制台支持配置GPU设备健康检查功能,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,及时发现并解决潜在问题。

操作步骤

说明

操作前,请确认GPU实例处于运行中状态。

  1. 登录ECS管理控制台。

  2. 在左侧导航栏,单击自助问题排查。

  3. 在页面左侧顶部,选择目标GPU实例所在地域。

  4. 在实例问题排查页签下,选择问题排查类型、检查项、实例ID和排查周期,然后单击开始排查。

    说明

    单击开始排查后,系统会自动创建一个诊断任务。同一时间段一个实例只允许执行一个诊断任务,且该任务完成后,需至少间隔5分钟,才能再次对该实例发起诊断任务。

    自助诊断.jpg

    具体配置项说明如下:

    序号

    配置项

    说明

    ①

    问题排查类型

    选择实例设备检测类型,用于检查实例的GPU卡或其他设备是否正常运行。

    ②

    检查项

    选中GPU设备健康检查,用于检查实例的GPU卡状态或驱动状态等。

    ③

    实例ID

    选择待检查的GPU实例ID。

    排查周期

    默认为您排查最近12小时内的问题,您也可以根据实际需要自行设置时间周期。

  5. 诊断完成后,查看诊断报告。

    诊断结果.jpg

    诊断报告包括以下信息:

    配置项

    说明

    诊断结果

    • 如果各项检查均正常,则显示为实例未发现异常。

    • 如果存在异常诊断项,则显示为实例存在***项异常,并显示异常详情和相应的修复方案,您可以参考修复方案解决问题。

    诊断项详情

    本文仅包含GPU设备和驱动的状态检查,级别分为严重、警告和通过。

    诊断基础信息

    包括资源ID、报告ID和诊断时间。

  6. (可选)在实例问题排查页签下,单击查看历史,查看当前实例的诊断历史详情。

    说明

    在诊断历史报告列表中,您可以单击诊断状态右侧的筛选图标,选择相应的状态进行筛选。

相关文章

通过云助手插件一键诊断GPU 2025-04-14 19:17

通过云助手插件可以对当前实例的GPU卡状态或驱动状态等方面进行全方位诊断,帮助您快速检测使用GPU时遇到的一些常见问题(例如GPU卡异常、驱动异常等),一旦诊断出异常情况,可以自动发起运维动作,例如发送通知给用户等。 操作步骤

通过控制台自助排查功能诊断GPU 2025-04-14 19:17

GPU实例在运行过程中可能会存在潜在的故障隐患或者安全风险,例如显卡故障、驱动程序错误等问题,ECS管理控制台支持配置GPU设备健康检查功能,方便您自行诊断当前实例的GPU卡或驱动是否存在异常,及时发现并解决潜在问题。 操作步骤

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号