程序员

ACK上使用抢占式实例训练模型

作者:admin 2021-07-21 我要评论

环境准备在阿里云 ACK 上创建集群 集群规格选择Pro版 Kubernetes版本选择1.20或以上版本。在ACK控制台 点击左侧菜单应用 - AI工程加速 进入云原生AI套件安装页面...

在说正事之前,我要推荐一个福利:你还在原价购买阿里云、腾讯云、华为云服务器吗?那太亏啦!来这里,新购、升级、续费都打折,能够为您省60%的钱呢!2核4G企业级云服务器低至69元/年,点击进去看看吧>>>)
环境准备在阿里云ACK上创建集群 集群规格选择Pro版 Kubernetes版本选择1.20或以上版本。在ACK控制台 点击左侧菜单应用 - AI工程加速 进入云原生AI套件安装页面。点击一键部署 交互方式中默认已勾选Arena 其他组件可根据需要自行勾选安装。点击页面最下方部署云原生AI套件按钮即可 安装成功后 可以在组件管理页面看到当前安装的组件信息。基于ECS抢占式实例的训练任务

使用ECS抢占式实例训练模型 需要先在ACK中创建节点池 并给节点池打标。然后在Arena提交训练任务时 通过--selector 参数指定把训练任务调度到抢占式实例上。


操作步骤如下

在ACK控制台 点击左侧菜单节点管理 - 节点池 进入节点池页面。首次创建节点池 需要先点击页面右上角集群自动弹性伸缩配置按钮 根据提示完成配置。


在节点池页面 点击右上角创建节点池按钮 在弹出的创建节点池窗口中完成配置。其中付费类型要选择抢占式实例。

11111111.png


然后点击页面最下方的显示高级选项。

2222222.png


在展开的配置项中 节点标签部分 为节点添加标签 这样节点池中的所有抢占式实例都被打上了instance spot的标签。

3333333.png


最后指定节点池中实例规格和数量 点击确认配置 完成节点池创建。


使用Arena提交训练任务到抢占式实例上 这里以提交一个tensorflow单机训练任务为例说明。
arena \
 submit \
 tfjob \
 --gpus 1 \
 --selector instance spot \
 --name tf-standalone-test-with-git \
 --env TEST_TMPDIR code/tensorflow-sample-code/ \
 --sync-mode git \
 --sync-source https://github.com/happy2048/tensorflow-sample-code.git \
 --logdir /training_logs \
 --image registry.cn-beijing.aliyuncs.com/ai-samples/tensorflow:1.5.0-devel-gpu \
 python code/tensorflow-sample-code/tfjob/docker/mnist/main.py --max_steps 5000 

执行上面的命令 注意其中的--selector instance spot参数 通过设置该参数就可以把训练任务调度到抢占式实例上。


本文转自网络,原文链接:https://developer.aliyun.com/article/785482

版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除

相关文章
  • 数智洞察丨和死神赛跑,那些不得不“闯

    数智洞察丨和死神赛跑,那些不得不“闯

  • 酒店小程序开发瑞蚁解决方案

    酒店小程序开发瑞蚁解决方案

  • 自建Kubernetes集群如何使用阿里云CSI

    自建Kubernetes集群如何使用阿里云CSI

  • 【kafka运维】数据迁移、分区副本重分

    【kafka运维】数据迁移、分区副本重分

腾讯云代理商
海外云服务器