应用程序在低版本CUDA环境中运行时报错

对于Linux操作系统虚拟化型GPU实例，安装了GRID驱动和低版本的CUDA后，可能会因为CUDA版本受限于GPU的驱动版本，导致依赖高版本CUDA的应用程序在该低版本CUDA环境中运行时报错，本文介绍这种情况的解决方案。

问题现象

对于Linux操作系统虚拟化型GPU实例，安装了GRID驱动和低版本的CUDA（例如版本为11.4）后，运行依赖高版本CUDA的应用程序（本文以依赖CUDA 12.2版本的matrixMul应用程序为例）时报错，提示信息如下：

问题原因

由于CUDA版本受限于GPU的驱动版本，对应关系请参见驱动版本与CUDA版本的对应表，从而导致依赖高版本CUDA（例如CUDA 12.2）的应用程序无法在低版本CUDA（例如CUDA 11.4）环境中运行。本文采用升级CUDA兼容工具包的方法来解决低版本CUDA环境能正常运行依赖高版本CUDA的应用程序。

解决方案

本方案以Ubuntu 20.04操作系统GPU实例为例。

远程连接Linux操作系统GPU实例。
具体操作，请参见通过密码或密钥认证登录Linux实例。
执行以下命令，下载CUDA 12.2兼容工具包。
本示例以下载Ubuntu 20.04系统X86_64架构的兼容工具包为例，您可以根据GPU实例的操作系统版本和架构从CUDA兼容包下载地址中选择匹配的兼容工具包下载即可。
```
sudo wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2004/x86_64/cuda-compat-12-2_535.104.05-1_amd64.deb
```
执行以下命令，从指定.deb文件提取文件并解压缩到指定目录。
重要
本示例以解压到/home目录为例，请替换为您的实际目录路径。
```
sudo dpkg  -x cuda-compat-12-2_535.104.05-1_amd64.deb /home
```

依次执行以下命令，配置高版本CUDA的环境变量。

sudo echo "export LD_LIBRARY_PATH=/home/usr/local/cuda-12.2/compat:$LD_LIBRARY_PATH" >> ~/.bashrc
source ~/.bashrc

执行应用程序验证运行是否正常。
本示例以执行matrixMul应用程序为例，显示如下图所示，表示应用程序运行成功。

使用GPU时出现XID 119XID 120错误导致GPU掉卡

2025-04-14 19:17

在Linux系统上使用GPU时，可能会因为GPU的GSP（GPU System Processor）组件运行状态异常，导致GPU卡在初始化时提示失败（例如出现XID 119或XID 120错误信息），本文为您介绍这种情况的解决方案。问题现象使用GPU时出现GPU掉卡现象，例如在Linux系统上使

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用

2025-04-14 19:17

对于Ubuntu操作系统GPU计算型实例（即ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex），如果您采用安装包方式安装了nvidia-fabricmanager服务，则apt-daily服务可能会自动更新已安装的软件包，使得该软件版本与Tesla驱动版本不一致，产生版本兼容性问题，

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错

2025-04-14 19:17

在Linux系统GPU实例中，可能会因为GPU实例所安装的CUDA版本与PyTorch版本不兼容，导致使用PyTorch时出现报错现象，本文介绍这种情况的解决方案。问题现象在Linux系统（例如Alibaba Cloud Linux 3操作系统）GPU实例中使用PyTorch时，出现如下报错信息

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败

2025-04-14 19:17

在GPU计算型实例中安装高版本Tesla驱动（例如驱动版本为535或更高版本）后，通过nvidia-smi -pm 1命令方式开启Persistence Mode属性，可能会因为驱动版本过高，重启实例后导致该属性开启失效，同时ECC状态或MIG功能设置也失败，本文介绍这种情况的解决方案。问题现象

应用程序在低版本CUDA环境中运行时报错

问题现象

问题原因

解决方案

使用GPU时出现XID 119XID 120错误导致GPU掉卡 2025-04-14 19:17

nvidia-fabricmanager版本与Tesla驱动版本不一致导致GPU无法正常使用 2025-04-14 19:17

启动容器镜像出现docker Error response from daemon could not select device driver with capabilities [[gpu]]报错 2025-04-14 19:17

内核更新时无法正常加载NVIDIA GPU（Tesla）驱动 2025-04-14 19:17

使用PyTorch时出现“undefined symbol __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错 2025-04-14 19:17

重启GPU实例后导致Persistence Mode属性开启失效，同时ECC状态或MIG功能设置也失败 2025-04-14 19:17

目录