nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用

对于Ubuntu操作系统GPU计算型实例（即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex），如果您采用安装包方式安装了nvidia-fabricmanager服务，则apt-daily服务可能会自动更新已安装的软件包，使得该软件版本与Tesla驱动版本不一致，产生版本兼容性问题，导致nvidia-fabricmanager服务启动失败，最终影响GPU无法正常使用，本文介绍这种情况的解决方案。

问题现象

采用安装包方式安装nvidia-fabricmanager服务后，查看该服务状态时，出现如下报错信息，该情况会导致GPU无法正常使用。

报错.jpg

问题原因

在Ubuntu系统的GPU实例上，通过安装包方式安装了nvidia-fabricmanager服务后，由于apt-daily服务会自动更新nvidia-fabricmanager软件，使得该软件版本与Tesla驱动版本不一致，基于版本兼容性问题，导致nvidia-fabricmanager服务启动失败，最终影响GPU无法正常使用。

解决方案

nvidia-fabricmanager软件版本必须与Tesla驱动版本一致，才能确保GPU的正常运行。为了预防或解决nvidia-fabricmanager软件版本与Tesla驱动版本不一致带来的GPU无法使用问题，请参考以下操作。

查看nvidia-fabricmanager软件和Tesla驱动版本信息。
- 执行以下命令，查看nvidia-fabricmanager软件版本信息。
```
sudo dpkg --list |grep nvidia-fabricmanager
```
  本示例以nvidia-fabricmanager软件版本为550.90.07为例，其中，nvidia-fabricmanager-550为软件包名称，550.90.07为软件版本。
- 执行以下命令，查看Tesla驱动版本信息。
```
nvidia-smi
```
  本示例以Tesla驱动版本为550.90.07为例。
确认当前nvidia-fabricmanager版本与Tesla驱动版本是否一致。
- 如果两版本一致，继续执行下一步。
- 如果两版本不一致，请选择以下任一方案：
  - 升级Tesla驱动确保与nvidia-fabricmanager版本保持一致。具体操作，请参见升级NVIDIA Tesla驱动。
  - 卸载当前nvidia-fabricmanager服务并重新安装后，继续执行下一步。
    说明
    如需了解如何卸载nvidia-fabricmanager服务，请参见步骤1：卸载nvidia-fabricmanager服务。
执行以下命令，禁止nvidia-fabricmanager软件被自动更新或升级。
本示例以nvidia-fabricmanager-550软件包名称为例，请替换成您实际的nvidia-fabricmanager软件包名称。
```
sudo apt-mark hold nvidia-fabricmanager-550 
```
显示结果如下，表示nvidia-fabricmanager软件已禁止更新。
执行以下命令，确认nvidia-fabricmanager软件更新已被锁定（hold）。
```
sudo apt-mark showhold
```
例如结果显示cloud-init和nvidia-fabricmanager-550信息，表示相应的软件更新已被锁定。

使用GPU时出现XID 119XID 120错误导致GPU掉卡

2025-04-14 19:17

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况的解决方案。问题现象使用GPU时出现GPU掉卡现象，例如在Linux系统上使

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用

2025-04-14 19:17

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错

2025-04-14 19:17

在Linux系统GPU实例中，可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容，导致使用PyTorch时出现报错现象，本文介绍这种情况的解决方案。问题现象在Linux系统（例如Alibaba Cloud Linux 3操作系统）GPU实例中使用PyTorch时，出现如下报错信息

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败

2025-04-14 19:17

在GPU计算型实例中安装高版本Tesla驱动（例如驱动版本为535或更高版本）后，通过nvidia-smi -pm 1命令方式开启Persistence Mode属性，可能会因为驱动版本过高，重启实例后导致该属性开启失效，同时ECC状态或MIG功能设置也失败，本文介绍这种情况的解决方案。问题现象

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用

问题现象

问题原因

解决方案

使用GPU时出现XID 119XID 120错误导致GPU掉卡 2025-04-14 19:17

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用 2025-04-14 19:17

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错 2025-04-14 19:17

内核更新时无法正常加载NVIDIA GPU（Tesla）驱动 2025-04-14 19:17

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错 2025-04-14 19:17

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败 2025-04-14 19:17

目录