本文介绍如何创建配备NVIDIA GPU的实例并安装相关驱动,配备NVIDIA GPU的实例必须安装驱动才可以使用GPU。
前提条件
完成创建ECS实例的准备工作:
- 创建账号,以及完善账号信息。
- 阿里云提供一个默认的专有网络VPC,如果您不想使用默认专有网络VPC,可以在目标地域创建一个专有网络和交换机。具体操作,请参见搭建IPv4专有网络。
- 阿里云提供一个默认的安全组,如果您不想使用默认安全组,可以在目标地域创建一个安全组。具体操作,请参见创建安全组。
操作步骤
本文重点介绍在控制台创建配备NVIDIA GPU的实例时需要注意的配置。关于如何完成其他通用配置,请参见使用向导创建实例。
配置自动安装脚本
在控制台创建实例时,您可以在基本配置页面的镜像区域选择是否安装GPU驱动(会同时安装GPU驱动、CUDA、cuDNN库)、AIACC-Training、AIACC-Inference。
GPU驱动、AIACC-Training、AIACC-Inference的说明如下:
- GPU驱动用于驱动物理GPU,配合CUDA、cuDNN库可以高效地使用GPU。如果是新业务系统,建议选择最新版本的GPU驱动、CUDA、cuDNN库,可选版本如下表所示。
CUDA GPU驱动 cuDNN 支持的公共镜像版本(仅支持自营镜像) 支持的实例规格 11.0.2 450.80.02 8.0.4 - Alibaba Cloud Linux 2
- Ubuntu 20.04、18.04、16.04
- Centos 8.x、7.x
- gn6v、gn6i、gn6e、gn5、gn5i
- ebmgn7、ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
10.2.89 - 450.80.02
- 440.64.00
- 8.0.4
- 7.6.5
- Alibaba Cloud Linux 2
- Ubuntu 18.04、16.04
- Centos 8.x、7.x、6.x
- gn6v、gn6i、gn6e、gn5、gn5i
- ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
10.1.168 - 450.80.02
- 440.64.00
- 8.0.4
- 7.6.5
- 7.5.0
- Ubuntu 18.04、16.04
- Centos 7.x、6.x
- gn6v、gn6i、gn6e、gn5、gn5i
- ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
10.0.130 - 450.80.02
- 440.64.00
- 7.6.5
- 7.5.0
- 7.4.2
- 7.3.1
- Ubuntu 18.04、16.04
- Centos 7.x、6.x
- gn6v、gn6i、gn6e、gn5、gn5i
- ebmgn6v、ebmgn6i、ebmgn6e、ebmgn5i
9.2.148 - 450.80.02
- 440.64.00
- 390.116
- 7.6.5
- 7.5.0
- 7.4.2
- 7.3.1
- 7.1.4
- Ubuntu 16.04
- Centos 7.x、6.x
- gn6v、gn6e、gn5、gn5i
- ebmgn6v、ebmgn6e、ebmgn5i
9.0.176 - 450.80.02
- 440.64.00
- 390.116
- 7.6.5
- 7.5.0
- 7.4.2
- 7.3.1
- 7.1.4
- 7.0.5
- Ubuntu 16.04
- Centos 7.x、6.x
- SUSE 12sp2
- gn6v、gn6e、gn5、gn5i
- ebmgn6v、ebmgn6e、ebmgn5i
8.0.61 - 450.80.02
- 440.64.00
- 390.116
- 7.1.3
- 7.0.5
- Ubuntu 16.04
- Centos 7.x、6.x
- gn5、gn5i
- ebmgn5i
说明 如果您在实例创建完成后更换操作系统,请确保使用支持自动安装GPU驱动的镜像,避免自动安装失败。 - AIACC-Training是阿里云自研的AI加速器,支持统一加速AI主流计算框架TensorFlow、PyTorch、MxNet和Caffe,可以显著提升训练性能。更多信息,请参见使用AIACC-Training。
说明 CentOS 8、CentOS 6、SUSE Linux、Alibaba Cloud Linux暂时不支持安装AIACC-Training。
- AIACC-Inference是阿里云自研的AI加速器,支持统一加速AI主流计算框架TensorFlow和可导出ONNX格式的框架,可以显著提升推理性能。更多信息,请参见使用AIACC-Inference。
说明 CentOS 8、CentOS 6、SUSE Linux、Alibaba Cloud Linux暂时不支持安装AIACC-Inference。
如果您在基本配置页面中选择了安装GPU驱动、AIACC-Training、AIACC-Inference,在系统配置页面的实例自定义数据区域会显示自动安装脚本的内容。实例创建成功后首次启动时,cloud-init会自动执行该自动安装脚本。
说明 如果您没有在基本配置页面中选择安装GPU驱动、AIACC-Training、AIACC-Inference,也可以在系统配置页面手动输入自动安装脚本。关于如何准备自动安装脚本,请参见自动安装脚本说明。
自动安装脚本说明
自动安装脚本已更新至v3.2,最新版本的自动安装脚本具有以下优势:
- 提供最新版本的GPU驱动、CUDA、cuDNN库。
- 连接实例后显示安装过程。
自动安装脚本的内容如下:
#!/bin/sh
#Please input version to install
IS_INSTALL_AIACC_TRAIN=""
IS_INSTALL_AIACC_INFERENCE=""
DRIVER_VERSION=""
CUDA_VERSION=""
CUDNN_VERSION=""
IS_INSTALL_RAPIDS="FALSE"
INSTALL_DIR="/root/auto_install"
#using .deb to install driver and cuda on ubuntu OS
#using .run to install driver and cuda on ubuntu OS
auto_install_script="auto_install_v3.2.sh"
script_download_url=$(curl http://100.100.100.200/latest/meta-data/source-address | head -1)"/opsx/ecs/linux/binary/script/${auto_install_script}"
echo $script_download_url
mkdir $INSTALL_DIR && cd $INSTALL_DIR
wget -t 10 --timeout=10 $script_download_url && sh ${INSTALL_DIR}/${auto_install_script} $DRIVER_VERSION $CUDA_VERSION $CUDNN_VERSION $IS_INSTALL_AIACC_TRAIN $IS_INSTALL_AIACC_INFERENCE $IS_INSTALL_RAPIDS
说明 如果使用CentOS、SUSE、Ubuntu 20.04镜像,执行自动安装脚本时使用.run安装包方式;如果使用Ubuntu 18.04、Ubuntu 16.04镜像,执行自动安装脚本时使用.deb安装包方式。
使用自动安装脚本时需要修改参数指定GPU驱动、CUDA、cuDNN库的版本,以及是否安装AIACC-Training和AIACC-Inference。
- 如果安装AIACC-Training,则将IS_INSTALL_AIACC_TRAIN的值设置为TRUE,否则设置为FALSE。
- 如果安装AIACC-Inference,则将IS_INSTALL_AIACC_INFERENCE的值设置为TRUE,否则设置为FALSE。
示例如下:
IS_INSTALL_AIACC_TRAIN="FALSE"
IS_INSTALL_AIACC_INFERENCE="FALSE"
DRIVER_VERSION="440.64.00"
CUDA_VERSION="10.2.89"
CUDNN_VERSION="8.0.4"