赛尔校园公共服务平台 Logo
平台使用
阿里云
百度云
移动云
智算服务
教育生态
登录 →
赛尔校园公共服务平台 Logo
平台使用 阿里云 百度云 移动云 智算服务 教育生态
登录
  1. 首页
  2. 阿里云
  3. GPU云服务器
  4. 操作指南
  5. 安装Tesla或GRID驱动
  6. 安装Tesla驱动
  7. 创建GPU实例时自动安装或加载Tesla驱动

创建GPU实例时自动安装或加载Tesla驱动

  • 安装Tesla驱动
  • 发布于 2025-04-14
  • 0 次阅读
文档编辑
文档编辑

针对通用计算场景或图形加速场景,您可以在创建GPU实例时自动安装或加载Tesla驱动,也可以在创建GPU实例后手动安装Tesla驱动,配备了驱动的GPU实例才能提供更好的计算性能和图形渲染能力。本文介绍如何在创建GPU实例时自动安装或加载Tesla驱动。

驱动安装方式

选择不同安装方式自动安装或加载Tesla驱动来满足通用计算场景或图形加速场景的性能需求。

安装方式

说明

相关链接

公共镜像方式

创建GPU实例时,您选择了公共镜像并同时选中安装GPU驱动选项。

通过公共镜像自动安装驱动

云市场镜像方式

创建GPU实例时,您选择了预装NVIDIA Tesla驱动的云市场镜像。

通过预装驱动的云市场镜像自动加载驱动

自动安装脚本方式

创建GPU实例时,在镜像区域未选中安装GPU驱动选项,但在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。

通过自动安装脚本方式安装驱动

通过公共镜像自动安装驱动

特定的Linux操作系统公共镜像支持选择安装GPU驱动选项,如果选择公共镜像后同时选中安装GPU驱动选项,则创建GPU实例后会自动安装Tesla驱动。

  1. 前往实例创建页。

  2. 选择自定义购买页签。

  3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。

    除实例规格和镜像外,如需了解其他配置项的详情,请参见配置项说明。支持创建GPU实例时同步安装Tesla驱动的实例、镜像及驱动版本对应关系如下:

    说明

    NVIDIA Tesla驱动用于驱动物理GPU,配合CUDA、cuDNN库可以高效地使用GPU,安装NVIDIA Tesla驱动会同时安装CUDA和cuDNN库。如果您的业务属于新的业务系统,建议选择最新版本的Tesla驱动、CUDA、cuDNN库。

    支持的实例规格

    支持的公共镜像版本

    NVIDIA Tesla驱动版本

    CUDA版本

    cuDNN版本

    • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • ebmgn7ix、ebmgn7ex

    • gn8is、ebmgn8is、gn8v、ebmgn8v

    • Alibaba Cloud Linux 2、Linux3

    • Ubuntu 22.04、20.04、18.04

    • Centos 8.x、7.x

    说明

    ebmgn8v、ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04版本的镜像。

    550.127.08

    12.4.1

    9.2.0.82

    • gn7e、gn7s、gn7i、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7e、ebmgn7i、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • ebmgn7ix、ebmgn7ex

    • gn8is、ebmgn8is

    • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

    • Ubuntu 20.04、18.04

    • CentOS 8.x、7.x

    说明

    ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04版本的镜像。

    535.216.03

    12.1.1

    8.9.7.29

    • gn7i、gn7e、gn7s、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • sccgn7ex

    • ebmgn7ix、ebmgn7ex

    • Alibaba Cloud Linux 2、Alibaba Cloud Linux 3

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    • Debian 10.10

    说明
    • sccgn7ex仅支持选择Debian10.10、 Ubuntu 20.04、 CentOS 8.3以及Alibaba Cloud Linux 2版本的镜像。

    • ebmgn7e和ebmgn7ex不支持选择Ubuntu 18.04、20.04版本的镜像。

    470.256.02

    11.4.1

    8.2.4

    • gn7、gn7i、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7i、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    11.2.2

    8.1.1

    • gn7、gn7e、gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn7、ebmgn7e、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 20.04、18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    11.0.2

    • 8.1.1

    • 8.0.4

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Alibaba Cloud Linux 2

    • Ubuntu 18.04、16.04

    • CentOS 8.x、7.x

    460.91.03

    10.2.89

    • 8.1.1

    • 8.0.4

    • 7.6.5

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Ubuntu 18.04、16.04

    • CentOS 7.x

    • 450.80.02

    • 440.64.00

    10.1.168

    • 8.0.4

    • 7.6.5

    • 7.5.0

    • gn6v、gn6i、gn6e、gn5、gn5i

    • ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i

    • Ubuntu 18.04、16.04

    • CentOS 7.x

    • 450.80.02

    • 440.64.00

    10.0.130

    • 7.6.5

    • 7.5.0

    • 7.4.2

    • 7.3.1

    重要
    • 如果实例创建完成后需要更换操作系统,请您确保使用支持自动安装Tesla驱动的公共镜像。如果您选择了不支持自动安装Tesla驱动的公共镜像,请先取消自动安装Tesla驱动功能,具体操作,请参见更换操作系统时如何取消自动安装Tesla驱动功能。

    • 如果您通过pip3 install torch安装了版本为2.1.2的PyTorch,则需要安装版本为12.1的CUDA,否则在使用PyTorch过程中会报错,更多信息,请参见使用PyTorch时出现“undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12”报错。

    以gn7i实例为例,在镜像区域的公共镜像页签下,选择Linux操作系统及版本(例如Alibaba Cloud Linux 3.2104 LTS 64位)时,选中安装GPU驱动选项,继续依次选择CUDA版本、Driver版本以及cuDNN版本,则创建实例后会同步安装NVIDIA Tesla驱动。

    Dingtalk_20240906134235.jpg

    • 实例创建或启动后,Tesla驱动的相关说明如下:

      除了为实例配置自动安装Tesla驱动、CUDA和cuDNN库,您还可以根据实际需要继续选择是否自动安装RDMA软件栈(仅超级计算集群sccgn7ex涉及),是否安装eRDMA软件栈(仅部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is等涉及)。待所有软件安装完成后,实例会自动重启,然后Tesla驱动才能正常工作。

      说明

      Tesla驱动在Persistence Mode下工作更稳定。自动安装脚本会自动开启Tesla驱动的Persistence Mode,并将该设置添加到Linux系统服务中,在开机时自动启动服务,从而确保实例重启后默认自动开启Persistence Mode。

      • RDMA软件栈

        RDMA(Remote Direct Memory Access)软件栈包含RDMA网卡驱动及所需工具包。

        说明

        为优化神龙架构GPU服务器的网络性能,阿里云推出了sccgn7ex实例规格,该规格机型配备了具有超强计算能力的GPU和RDMA(Remote Direct Memory Access)高性能网络服务。如果您选择了sccgn7ex实例,则需要根据自身业务,选择是否自动安装RDMA软件栈。

        • 如果单独选中安装RDMA软件栈,则实例创建后会自动安装RDMA网卡驱动及所需工具包,方便您快速使用RDMA的高性能网络服务(例如高吞吐量、低延迟特性)。

        • 如果同时选中安装GPU驱动和安装RDMA软件栈,则实例创建后会自动安装RDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。更多信息,请参见sccgn系列实例使用说明及验证。

      • eRDMA软件栈

        eRDMA(Elastic Remote Direct Memory Access)是阿里云自研的云上弹性RDMA网络,具备传统RDMA网络的高吞吐、低延迟特性,同时可支持秒级的大规模RDMA组网。RDMA软件栈包含NVIDIA MLNX_OFED驱动、eRDMA驱动以及所需工具包。

        说明

        目前部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is等)支持创建/挂载弹性RDMA网卡。如果您选择了该实例,则需要根据自身业务选择是否自动安装eRDMA软件栈。

        • 如果单独选中安装eRDMA软件栈,则实例创建后会自动安装NVIDIA MLNX_OFED驱动及eRDMA驱动,方便您快速使用RDMA功能。

        • 如果同时选中安装GPU驱动和安装eRDMA软件栈,则实例创建后会自动安装eRDMA软件栈和GPU驱动、CUDA、cuDNN,并自动加载nvidia_peermem模块,方便您的业务使用GPU Direct RDMA功能。

        更多信息,请参见在GPU实例上配置eRDMA。

    • 自动安装Tesla驱动耗时受不同实例规格的内网带宽和CPU核数影响,大约需要10~20分钟。您可以远程连接实例并查看安装过程,也可以在安装完成后查看安装日志/root/auto_install/auto_install.log。安装过程中的显示效果如下所示:

      安装过程

      显示效果

      正在安装

      显示安装进度条。

      安装成功

      安装结果提示ALL INSTALL OK。

      安装失败

      安装结果提示INSTALL FAIL。

      重要

      在安装过程中无法使用GPU时,请勿对实例进行任何操作。如果安装了GPU某些软件,则会由于自动安装失败而导致实例不可用。

  4. 按照页面提示,完成订单支付。

通过预装驱动的云市场镜像自动加载驱动

部分GPU计算型实例(Linux)的云市场镜像中已预装了NVIDIA Tesla驱动,该镜像供您免费使用。您可以在云市场镜像中选择已预装了Tesla驱动的免费镜像,创建GPU实例时选用该镜像也会同步加载Tesla驱动。

  1. 前往实例创建页。

  2. 选择自定义购买页签。

  3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。

    除实例规格和镜像外,如需了解其他配置项的详情,请参见配置项说明。

    • 如果需要获得GPU超强的计算能力,您可以选择如下云市场镜像,在创建GPU实例时同步加载Tesla驱动。

      支持的实例规格

      已预装驱动或软件栈的镜像

      版本信息

      是否已安装nvidia- fabircmanager

      • gn7e、gn7i、gn6e、gn6v、gn6i、gn5、gn5i

      • ebmgn7i、ebmgn6e、ebmgn6v、ebmgn6i

      • Alibaba Cloud Linux 2 64位(预装NVIDIA GPU驱动)

      • Ubuntu 20.04 64位(预装NVIDIA GPU驱动)

      • CentOS 7.9 64位(预装NVIDIA GPU驱动)

      • Tesla驱动版本:470.161.03

      • CUDA版本:11.4.1

      • cuDNN版本:8.2.4

      否

      GPU计算型实例

      Alibaba Cloud Linux 3.2104 LTS 64位预装NVIDIA GPU驱动镜像

      • Tesla驱动版本:535.154.05

      • Docker版本:26.1.3

      • NVIDIA Container Toolkit版本:1.13.5

      否

      Alibaba Cloud Linux 3.2104 LTS 64位预装NVIDIA GPU 550.90.07驱动镜像

      • Tesla驱动版本:550.90.07

      • CUDA版本:12.4.1

      • cuDNN版本:9.2.0

      • Docker版本:26.1.3

      • eRDMA版本:0.2.37

      是

      Ubuntu 22.04 64位预装NVIDIA GPU 550.90.07驱动镜像

      • Tesla驱动版本:550.90.07

      • CUDA版本:12.4.1

      • cuDNN版本:9.2.0

      • Docker版本:27.0.3

      • eRDMA版本:0.2.37

      是

      以华北2(北京)地域的gn6i(ecs.gn6i-c4g1.xlarge)实例为例,在镜像区域的云市场镜像页签下,支持选择已预装NVIDIA Tesla驱动的免费镜像。如果选择了云市场镜像中已预装驱动的镜像,则创建实例时自动加载NVIDIA Tesla驱动。例如:

      单击从云市场获取更多选择(含操作系统),然后搜索预装NVIDIA,选择并使用已预装NVIDIA Tesla驱动的免费镜像。

      云市场.png

    • 如果需要快速使用RDMA/eRDMA的高性能网络服务(例如高吞吐、低延迟特性)功能以实现RDMA直通加速能力 ,您可以选择如下云市场镜像,在创建GPU实例时自动加载Tesla驱动、RDMA软件栈或eRDMA软件栈。

      支持的实例规格

      已预装驱动或软件栈的镜像

      版本信息

      sccgn7ex

      • Alibaba Cloud Linux 2 64位 for sccgn7ex(预装NVIDIA GPU驱动/RDMA软件栈)

      • Ubuntu 20.04 64位 for sccgn7ex(预装NVIDIA GPU驱动/RDMA软件栈)

      • Tesla驱动版本:525.105.17

      • CUDA版本:12.0.1

      • cuDNN版本:8.9.1.23

      支持eRDMA弹性网卡的实例(例如ebmgn7ix、ebmgn7ex、ebmgn8is等)

      Alibaba Cloud Linux 3 64位 (预装eRDMA软件栈)

      eRDMA驱动版本:0.2.37

  4. 按照页面提示,完成订单支付。

通过自动安装脚本方式安装驱动

在创建GPU实例时,如果在镜像区域未选中安装GPU驱动选项,则您可以在自定义数据区域输入自动安装脚本来安装NVIDIA Tesla驱动。

脚本参数设置说明

使用自动安装脚本时,您需要根据实际业务场景修改如下参数。

  • 根据您所创建的实例规格和镜像,修改对应的Tesla驱动、CUDA和cuDNN库版本。详细的版本支持情况,请参见通过公共镜像自动安装驱动中选择公共镜像时Tesla驱动支持的镜像版本和实例规格。

    以修改Tesla驱动版本为550.127.08、CUDA版本为12.4.1、cuDNN版本为9.2.0.82为例,示例如下:

    DRIVER_VERSION="550.127.08"
    CUDA_VERSION="12.4.1"
    CUDNN_VERSION="9.2.0.82"
  • (条件必选)如果实例为超级计算集群sccgn7ex的实例规格族,则设置是否安装RDMA软件栈。

    仅超级计算集群sccgn7ex的实例规格族支持安装RDMA软件栈。如需安装RDMA软件栈,则将IS_INSTALL_RDMA的值设置为TRUE,否则设置为FALSE。示例如下:

    IS_INSTALL_RDMA="TRUE"
  • (条件必选)如果实例为部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is),则设置是否安装eRDMA软件栈。

    仅部分第7代GPU实例(如ebmgn7ex和ebmgn7ix)以及第8代所有GPU实例(如ebmgn8is和gn8is)支持安装eRDMA软件栈。如需安装eRDMA软件栈,则将IS_INSTALL_eRDMA的值设置为TRUE,否则设置为FALSE。示例如下:

    IS_INSTALL_eRDMA="TRUE"

操作步骤

  1. 前往实例创建页。

  2. 选择自定义购买页签。

  3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像、自定义数据等配置。

    如需了解其他配置项,请参见配置项说明。

  4. 在高级选项(选填)的自定义数据区域内,手动输入已准备的脚本内容。

    您可以自行准备自动安装脚本,关于自动安装脚本参数设置的详细说明,请参见脚本参数设置说明。

    本脚本以使用.run安装包方式安装Tesla驱动等模块为例。脚本示例如下所示:

    #!/bin/sh
    
    #Please input version to install
    DRIVER_VERSION="550.127.08"
    CUDA_VERSION="12.4.1"
    CUDNN_VERSION="9.2.0.82"
    IS_INSTALL_eRDMA="FALSE"
    IS_INSTALL_RDMA="FALSE"
    INSTALL_DIR="/root/auto_install"
    
    #using .run to install driver and cuda
    auto_install_script="auto_install_v4.0.sh"
    
    script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
    echo $script_download_url
    
    rm -rf $INSTALL_DIR
    mkdir -p $INSTALL_DIR
    cd $INSTALL_DIR && wget -t 10 --timeout=10 $script_download_url && bash ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_RDMA $IS_INSTALL_eRDMA

    Dingtalk_20240906131054.jpg

  5. 按照页面提示,完成订单支付。

    说明
    • 如果调用RunInstances接口来创建GPU实例,则您只能通过UserData参数上传自动安装脚本来安装NVIDIA Tesla驱动,更多信息,请参见RunInstances。

    • 在创建GPU实例时,如果未同时自动安装NVIDIA Tesla驱动,则可在GPU实例创建后手动执行自动安装脚本来安装Tesla驱动等软件。即通过SSH登录实例后,在实例内编辑一个文件,然后将自动安装脚本内容复制到实例内并作为Shell脚本执行。关于实例连接方式的介绍,请参见ECS远程连接方式概述。

相关文档

针对通用计算场景或图形加速场景,如果您在创建GPU计算型实例时未自动安装或加载Tesla驱动,则需要在创建GPU实例后,单独安装相应驱动。具体操作,请参见:

  • 在GPU计算型实例中手动安装Tesla驱动(Linux)

  • 在GPU计算型实例中手动安装Tesla驱动(Windows)

相关文章

在GPU计算型实例中手动安装Tesla驱动(Windows) 2025-04-14 19:17

在深度学习、AI等通用计算业务场景下,安装了Tesla驱动的GPU才能发挥高性能计算能力。Windows系统GPU计算型实例不支持在创建实例时自动安装Tesla驱动,您只能参考本文操作手动安装Tesla驱动。 操作步骤

在GPU计算型实例中手动安装Tesla驱动(Linux) 2025-04-14 19:17

在深度学习、AI等通用计算业务场景或者OpenGL、Direct3D、云游戏等图形加速场景下,安装了Tesla驱动的GPU才可以发挥高性能计算能力,或提供更流畅的图形显示效果。如果您在创建GPU计算型实例(Linux)时未同时安装Tesla驱动,则需要在创建GPU实例后,单独手动安装Tesla驱动(

创建GPU实例时自动安装或加载Tesla驱动 2025-04-14 19:17

针对通用计算场景或图形加速场景,您可以在创建GPU实例时自动安装或加载Tesla驱动,也可以在创建GPU实例后手动安装Tesla驱动,配备了驱动的GPU实例才能提供更好的计算性能和图形渲染能力。本文介绍如何在创建GPU实例时自动安装或加载Tesla驱动。 驱动安装方式 选择不同安装方式自动安装或加载

通过YUM方式快速安装NVIDIA Tesla驱动(Alibaba Cloud Linux 3) 2025-04-14 19:17

针对Alibaba Cloud Linux 3系统的GPU计算型实例,如果创建实例时未自动安装NVIDIA Tesla驱动,通过手动方式安装该驱动时,需要您先下载软件包,然后编译安装并配置CUDA等组件,操作比较繁琐,而采用YUM方式可以快速安装NVIDIA Tesla驱动及相关组件(例如CUDA、

目录
Copyright © 2025 your company All Rights Reserved. Powered by 赛尔网络.
京ICP备14022346号-15
gongan beian 京公网安备11010802041014号