使用GPU时出现XID 119XID 120错误导致GPU掉卡

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况的解决方案。

问题现象

使用GPU时出现GPU掉卡现象，例如在Linux系统上使用GPU时，出现GPU卡初始化失败的错误提示。执行sh nvidia-bug-report.sh nvidia-bug-report.sh命令后，在生成的日志中，可以看到XID 119或XID 120错误信息。以XID 119报错页面为例，显示如下：

报错信息.png

说明

关于其他XID Errors的更多信息，请参见NVIDIA Common XID Errors。

问题原因

引起上述问题的原因可能是GPU的GSP（GPU System Processor）组件运行状态异常，升级NVIDIA最新版本驱动后，如果GPU掉卡问题仍然会复现，则建议您关闭GSP功能。

说明

如果您想了解更多关于GSP功能的影响详情，请参见开启或关闭GSP功能的影响。

解决方案

远程连接GPU实例。
具体操作，请参见通过密码或密钥认证登录Linux实例。

执行以下命令，关闭GPU的GSP组件。

sudo su
echo options nvidia NVreg_EnableGpuFirmware=0 > /etc/modprobe.d/nvidia-gsp.conf

重启GPU实例。
具体操作，请参见重启实例。
再次登录GPU实例。
执行以下命令，查看EnableGpuFirmware参数值。
```
cat /proc/driver/nvidia/params | grep EnableGpuFirmware:
```
- 如果返回结果是EnableGpuFirmware: 0，则表示GPU的GSP组件关闭，问题已修复。
  说明
  只要EnableGpuFirmware: 0，则执行nvidia-smi检查GPU卡状态时，其返回结果肯定是正常的。
- 如果返回结果不是EnableGpuFirmware: 0，则表示GSP组件没有关闭，请继续执行下一步确认NVIDIA GPU是否正常。
执行nvidia-smi命令，确认NVIDIA GPU卡是否正常。
- 如果返回结果显示GPU卡正常，例如GPU风扇转速、温度和性能模式等都正常，如下图所示，则问题已解决。
- 如果返回结果异常，表示NVIDIA GPU卡仍然存在问题，请联系阿里云运维技术人员进行关机迁移操作。

使用GPU时出现XID 119XID 120错误导致GPU掉卡

2025-04-14 19:17

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况的解决方案。问题现象使用GPU时出现GPU掉卡现象，例如在Linux系统上使

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用

2025-04-14 19:17

对于Ubuntu操作系统GPU计算型实例（即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex），如果您采用安装包方式安装了nvidia-fabricmanager服务，则apt-daily服务可能会自动更新已安装的软件包，使得该软件版本与Tesla驱动版本不一致，产生版本兼容性问题，

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错

2025-04-14 19:17

在Linux系统GPU实例中，可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容，导致使用PyTorch时出现报错现象，本文介绍这种情况的解决方案。问题现象在Linux系统（例如Alibaba Cloud Linux 3操作系统）GPU实例中使用PyTorch时，出现如下报错信息

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败

2025-04-14 19:17

在GPU计算型实例中安装高版本Tesla驱动（例如驱动版本为535或更高版本）后，通过nvidia-smi -pm 1命令方式开启Persistence Mode属性，可能会因为驱动版本过高，重启实例后导致该属性开启失效，同时ECC状态或MIG功能设置也失败，本文介绍这种情况的解决方案。问题现象

使用GPU时出现XID 119XID 120错误导致GPU掉卡

问题现象

问题原因

解决方案

使用GPU时出现XID 119XID 120错误导致GPU掉卡 2025-04-14 19:17

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用 2025-04-14 19:17

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错 2025-04-14 19:17

内核更新时无法正常加载NVIDIA GPU（Tesla）驱动 2025-04-14 19:17

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错 2025-04-14 19:17

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败 2025-04-14 19:17

目录