PAI深度学习Tensorflow框架多机多卡多PS Server使用说明

简介

PAI目前已经上线了支持多机、多卡、多PS Server的TensorFlow服务,目前只支持华北2 Region。华北2 Region因为支持多机多卡功能,适用于大规模数据的训练,相关服务需要收费,有需要的相关机构可以联系我们。

原理说明

  • Parameter Server节点:用来存储TensorFlow计算过程中的参数。配置多个PS节点,计算参数将会被自动切片并存储在不同的PS节点中,从而减小Worker和PS节点通信过程中的带宽限制的影响。
  • Worker节点:“多机多卡”中的“机”,GPU卡的载体。
  • Task节点:“多机多卡”中的“卡”,在PAI中指的是GPU卡,在TensorFlow训练过程中,通过数据切片将数据分布在不同的Task节点进行模型参数的训练。

使用说明

多机、多卡、多PS功能会以服务化的方式提供,用户无需关心底层计算资源的调度和运维,只需要通过PAI前端的简单配置即可快速搭建起整个分布式计算网络。下面介绍下具体的使用方式:

1.前端配置

  • 将mnist_cluster.tar.gz文件下载并上传到OSS(本文下部提供下载地址),配置深度学习的OSS读取权限,拖拽任意版本TensorFlow组件按照下图连接,设置对应的代码数据源(Python代码文件设置mnist_cluster.tar.gz路径,Python主文件填入mnist_cluster.py):
  • 点击“执行调优”进行参数配置:
  • 通过以上配置可以快速建立起如下图所示的多机多卡多PS计算网络结构,其中PS为Parameter Server服务,WORKER为计算节点机器,TASK表示具体执行计算的GPU卡:

2.代码端设置

传统的TensorFlow多机多卡作业需要在代码端输入每一个计算节点的对应端口信息,如下图所示:

当计算节点数量增多时,这种端口信息的配置会非常复杂。PAI优化了计算节点配置信息的功能,只需要以下两行代码即可自动在代码端获取计算节点信息。

 ps_hosts = FLAGS.ps_hosts.split(",")#框架层提供ps_hosts的端口
 worker_hosts = FLAGS.worker_hosts.split(",")#框架层提供worker_hosts的端口

3.运行日志查看

  • 右键TensorFlow,产看日志,可以看到资源的分配情况。分配两个PS,两个WORKER。
  • 点击蓝色链接,可以在logview中查看对应每个worker的运行状态:

代码下载

https://help.aliyun.com/document_detail/64146.html

时间: 2024-07-29 10:01:43

PAI深度学习Tensorflow框架多机多卡多PS Server使用说明的相关文章

【教程】使用PAI深度学习tensorflow读取OSS教程

在PAI上, 使用TensorFlow读取OSS文件 作者: 万千钧 转载需注明出处 本文适合有一定TensorFlow基础, 且准备使用PAI的同学阅读 目录     1. 如何PAI上读取数据     2. 如何减少读取的费用开支     3. 使用OSS需要注意的问题 1. 在PAI上读取数据 Python不支持读取oss的数据, 故所有调用 python Open(), os.path.exist() 等文件, 文件夹操作的函数的代码都无法执行. 如Scipy.misc.imread()

【玩转数据系列十二】PAI平台深度学习Caffe框架实现图像分类的模型训练

PAI平台深度学习Caffe框架实现图像分类的模型训练 背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练.关于P

良心推荐!机器学习和深度学习最佳框架

文章讲的是良心推荐!机器学习和深度学习最佳框架,机器学习框架和深度学习框架之间是有区别的.本质上,机器学习框架涵盖用于分类,回归,聚类,异常检测等各种学习方法,并且其可以不包括神经网络方法.深度学习或深度神经网络(DNN)框架涵盖具有许多隐藏层的神经网络拓扑.层越多,可用于聚类和分类的特征越复杂. Caffe,CNTK,DeepLearning4j,Keras,MXNet和TensorFlow是深度学习框架.Scikit-learning和Spark MLlib是机器学习框架.而Theano跨越

AI 从业者该如何选择深度学习开源框架丨硬创公开课

编者按:本文内容来自微软美国总部机器学习科学家彭河森博士在雷锋网(公众号:雷锋网)硬创公开课的分享,并由彭河森博士亲自整理成文. 正如程序语言一样,深度学习开源框架同样各有优劣和适用的场景,那么 AI 从业者该如何有针对性地选择这些平台来玩转深度学习? 本期公开课特邀了先后在谷歌.亚马逊.微软供职的机器学习科学家彭河森博士为大家讲述<MXNet火了,AI从业者该如何选择深度学习开源框架>.彭河森博士亲眼见证并深入参与了这三家巨头布局深度学习的过程. 嘉宾介绍 彭河森,埃默里大学统计学博士.现担

预告:MXNet火了,AI从业者该如何选择深度学习开源框架丨硬创公开课

近日 MXNet 被亚马逊AWS 正式选成为官方深度学习平台,使得前者再次火遍整个 AI 圈. 除了 MXNet 外,谷歌.微软.亚马逊.百度等巨头都围绕深度学习搭建了自己的开源平台.目前研究人员正在使用的深度学习框架不尽相同,有 TensorFlow.CNTK.MXNet.Torch .Caffe.Theano.Deeplearning4j 等. 正如程序语言之争一样,深度学习开源框架同样各有优劣和适用的场景,那么 AI 从业者该如何有针对性地选择这些平台来玩转深度学习? 本期公开课特邀先后在

【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练

背景 我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练. 关于PAI的深度学习功能开通,请务必提前阅读https://

深度学习---tensorflow简介

什么是深度学习? 在机器学习流行之前,都是基于规则的系统,因此做语音的需要了解语音学,做NLP的需要很多语言学知识,做深蓝需要很多国际象棋大师. 而到后来统计方法成为主流之后,领域知识就不再那么重要,但是我们还是需要一些领域知识或者经验来提取合适的feature(特征),feature的好坏往往决定了机器学习算法的成败.对于NLP来说,feature还相对比较好提取,因为语言本身就是高度的抽象:而对于Speech或者Image来说,我们人类自己也很难描述我们是怎么提取feature的.比如我们识

深度学习-theano框架的lstm数据集格式讲解

问题描述 theano框架的lstm数据集格式讲解 theano的lstm,dataset是怎样的一个格式. 我看官网的解释,说是train y和test y都是0和1,就是二分类,这个没问题.但是train x和test x,是一个二维数组?那行数表示什么,列数呢? 我想输入自己的数据,比如我有100个样本,每个样本1024维,想对它们进行二分类,那数据格式怎么写呢 解决方案 大神解释下数据集格式,

《白话深度学习与TensorFlow》——第3章 3.0TensorFlow框架特性与安装

第3章 3.0TensorFlow框架特性与安装 随着深度学习技术的逐步兴起,世界范围内支持深度学习的框架也如雨后春笋.那些各大学实验室制作出来的不出名的小项目就不必提了,单说现在在业界使用比较普遍的框架就有TensorFlow.Caffe.Theano.Torch等不下十种.我们在这本书中选用TensorFlow是因为笔者认为TensorFlow作为谷歌重要的开源项目,其未来的社区热度应该是容易保证的.而一个火热的社区对于推动一个开源项目发展有着至关重要的作用,它能让项目有旺盛的生命力且在生命