通过ACK安装并使用cGPU服务 - GPU云服务器_编程技术网-程序员技术内容聚合平台

（在说正事之前，我要推荐一个福利：你还在原价购买阿里云、腾讯云、华为云服务器吗？那太亏啦！来这里，新购、升级、续费都打折，能够为您省60%的钱呢！2核4G企业级云服务器低至69元/年，点击进去看看吧>>>)

本文为您介绍如何通过阿里云容器服务Kubernetes版ACK（Container Service for Kubernetes）安装及使用GPU容器共享技术cGPU。

安装cGPU服务

通过ACK服务在GPU节点上安装GPU隔离模块及GPU分配查询工具，从而实现GPU的调度和隔离能力。具体操作，请参见安装cGPU服务。

以下为您介绍通过ACK服务使用cGPU服务的操作指引。您可以根据自身业务场景，选择相应的内容前往查看。

运行cGPU服务
通过部署YAML文件创建cGPU，并使用cGPU的显存隔离能力，实现GPU设备资源的高效利用。具体操作，请参见运行cGPU服务示例。
监控和隔离GPU资源
通过cGPU服务，在无需修改现有GPU程序的前提下，保障多个容器共享同一个GPU的同时，实现彼此的互相隔离。以实际示例介绍如何通过托管的Prometheus查看GPU的显存使用情况，以及如何通过cGPU实现资源隔离。具体操作，请参见监控和隔离GPU资源。
升级GPU节点的Docker
cGPU的隔离能力依赖Docker 19.03.5以及与其对应的Nvidia-container-runtime版本，如果Kubernetes集群节点安装的Docker版本低于19.03.5，您需要将其升级至19.03.5。否则，Kubernetes集群节点将无法支持cGPU服务。

升级Docker以及与其对应的Nvidia-container-runtime的具体操作，请参见升级GPU节点的Docker。
基于节点池管理cGPU服务
基于节点池管理cGPU能够为您提供更加灵活的GPU共享调度和显存隔离策略。您可以通过创建两个含标签的节点池的示例，掌握如何基于节点池管理共享GPU的调度能力和显存隔离能力。具体操作，请参见基于节点池管理cGPU服务。
关闭cGPU显存隔离能力
通过部署创建GPU共享容器的YAML文件，介绍如何关闭cGPU显存隔离能力。具体操作，请参见关闭cGPU显存隔离能力。