赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 服务支持
  5. 故障排除
  6. 使用GPU时出现XID 119XID 120错误导致GPU掉卡

使用GPU时出现XID 119XID 120错误导致GPU掉卡

  • 故障排除
  • 发布于 2025-04-14
  • 0 次阅读
文档编辑
文档编辑

在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况的解决方案。

问题现象

使用GPU时出现GPU掉卡现象,例如在Linux系统上使用GPU时,出现GPU卡初始化失败的错误提示。执行sh nvidia-bug-report.sh nvidia-bug-report.sh命令后,在生成的日志中,可以看到XID 119或XID 120错误信息。以XID 119报错页面为例,显示如下:

报错信息.png

说明

关于其他XID Errors的更多信息,请参见NVIDIA Common XID Errors。

问题原因

引起上述问题的原因可能是GPU的GSP(GPU System Processor)组件运行状态异常,升级NVIDIA最新版本驱动后,如果GPU掉卡问题仍然会复现,则建议您关闭GSP功能。

说明

如果您想了解更多关于GSP功能的影响详情,请参见开启或关闭GSP功能的影响。

解决方案

  1. 远程连接GPU实例。

    具体操作,请参见通过密码或密钥认证登录Linux实例。

  2. 执行以下命令,关闭GPU的GSP组件。

    sudo su
    echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf
  3. 重启GPU实例。

    具体操作,请参见重启实例。

  4. 再次登录GPU实例。

  5. 执行以下命令,查看EnableGpuFirmware参数值。

    cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
    • 如果返回结果是EnableGpuFirmware: 0,则表示GPU的GSP组件关闭,问题已修复。

      Dingtalk_20240813131616.jpg

      说明

      只要EnableGpuFirmware: 0,则执行nvidia-smi检查GPU卡状态时,其返回结果肯定是正常的。

    • 如果返回结果不是EnableGpuFirmware: 0,则表示GSP组件没有关闭,请继续执行下一步确认NVIDIA GPU是否正常。

  6. 执行nvidia-smi命令,确认NVIDIA GPU卡是否正常。

    • 如果返回结果显示GPU卡正常,例如GPU风扇转速、温度和性能模式等都正常,如下图所示,则问题已解决。

      GPU卡.jpg

    • 如果返回结果异常,表示NVIDIA GPU卡仍然存在问题,请联系阿里云运维技术人员进行关机迁移操作。

相关文章

使用GPU时出现XID 119XID 120错误导致GPU掉卡 2025-04-14 19:17

在Linux系统上使用GPU时,可能会因为GPU的GSP(GPU System Processor)组件运行状态异常,导致GPU卡在初始化时提示失败(例如出现XID 119或XID 120错误信息),本文为您介绍这种情况的解决方案。 问题现象 使用GPU时出现GPU掉卡现象,例如在Linux系统上使

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用 2025-04-14 19:17

对于Ubuntu操作系统GPU计算型实例(即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex),如果您采用安装包方式安装了nvidia-fabricmanager服务,则apt-daily服务可能会自动更新已安装的软件包,使得该软件版本与Tesla驱动版本不一致,产生版本兼容性问题,

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错 2025-04-14 19:17

在GPU云服务器上安装Docker环境后,如果未安装NVIDIA Container Toolkit,通过docker run --gpus all [镜像名称]启动容器镜像时,可能会出现docker: Error response from daemon: could not select dev

内核更新时无法正常加载NVIDIA GPU(Tesla)驱动 2025-04-14 19:17

当升级GPU实例的操作系统(例如Alibaba Cloud Linux、RedHat、CentOS、Ubuntu等)内核时,可能会因为两个内核的kABI(Kernel Application Binary Interface)不一致,导致旧内核上构建的GPU(Tesla)驱动无法在新的内核上加载。内

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错 2025-04-14 19:17

在Linux系统GPU实例中,可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容,导致使用PyTorch时出现报错现象,本文介绍这种情况的解决方案。 问题现象 在Linux系统(例如Alibaba Cloud Linux 3操作系统)GPU实例中使用PyTorch时,出现如下报错信息

重启GPU实例后导致Persistence Mode属性开启失效,同时ECC状态或MIG功能设置也失败 2025-04-14 19:17

在GPU计算型实例中安装高版本Tesla驱动(例如驱动版本为535或更高版本)后,通过nvidia-smi -pm 1命令方式开启Persistence Mode属性,可能会因为驱动版本过高,重启实例后导致该属性开启失效,同时ECC状态或MIG功能设置也失败,本文介绍这种情况的解决方案。 问题现象

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号