使用裸金属GPU服务器、RDMA网络、CPFS和Perseus框架搭建容器化NLP训练环境。
直达最佳实践
更多最佳实践
场景描述
本方案适用于自然语言处理的训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS+容器服务Kubernetes版(ACK)进行NLP的训练,采用Bert模型,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。
解决的问题
- 使用神龙+ACK搭建NLP训练环境
- 使用SCC的RDMA网络
- 使用CPFS存储训练数据
- 使用飞天AI加速训练工具加速训练
作者:admin 2021-09-08 我要评论
使用裸金属GPU服务器、RDMA网络、CPFS和Perseus框架搭建容器化NLP训练环境。 直达最佳实践 点击查看最佳实践详情 更多最佳实践 点击查看更多阿里云最佳实践 。 ...
使用裸金属GPU服务器、RDMA网络、CPFS和Perseus框架搭建容器化NLP训练环境。
本方案适用于自然语言处理的训练场景,使用神龙GPU云服务器(SCCGN6)+CPFS+容器服务Kubernetes版(ACK)进行NLP的训练,采用Bert模型,使用飞天AI加速训练工具可以有效提升多机多卡的训练效率。
版权声明:本文转载自网络,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本站转载出于传播更多优秀技术知识之目的,如有侵权请联系QQ/微信:153890879删除