快速在阿里云上构建机器学习应用

3月28日云栖大会开源专场，阿里云技术专家必嘫给大家带来了“在阿里云上构建机器学习应用”的演讲。本文主要从深度学习应用发展历史开始谈起，进而介绍了如何结合阿里云容器服务的机器学习解决方案快速打造一套深度学习应用的案例。

深度学习应用发展的介绍

深度学习在2016年有两款应用特别火爆，影响到每个普通人的生活。第一个是会下围棋的AlphaGo,它向大家证明了计算机不只有强大的运算能力，同时具备了自学能力，更厉害的是这种学习能力是可以纵向深入的，换句话说，不需要人赋予的逻辑，计算机可以通过大量的数据和不断的训练成为一个领域的专家。

而另一款是萌萌的手机应用：Prisma，这也是一款基于深度学习技术的手机应用,在2016年底，它分别登上了ios和Android手机最佳应用的头名，成为全球潮人的家具旅行必备良品。这款产品的功能直白一点说，就是用户提供自家小区的照片，结合绘画大师的艺术风格，最后产生一款有大师风格的用户照片。用机器学习的语言来描述，这个工作分为两个部分
1. 求解描述大师风格的方程f，这是整个过程中最消耗时间的事情，大概占据了整个消耗时间的99%
2. 当风格方程f的参数确定后，将x代入方程f

这套风格转换的深度学习算法并不是Prisma首创的，实际上在2015年，就有三个来自德国的研究员发明了这套算法，并发表了论文。同时他们也创办了一家叫Deep Art的公司。用户在 Deep Art 网页上上传自己的照片，然后通过 Deep Art 提供的 “机器人梵高” 进行新画创作。整个过程需要等待几个小时让计算机进行数据运算和处理。用户可以选择清晰程度不等的作品。用户可以花上 19 欧买一张适合明信片用的作品，或者多掏 100 欧，买一张大尺寸油画级别的。他们的生意不错但是并没有大火。

其中的原因有两个：

等待一副图片的产生需要几个小时的用户体验不佳，要知道用户是没有耐心等待的
它没有提供手机App，导致用户覆盖率不够高。

而这时一个聪明的俄罗斯程序员阿列克谢 · 莫伊谢延科夫（Alexei Moiseyenkov）意识到了这个聚宝盆并没有真正开启，他要做一款速度超快的手机应用。能实现相同的功能。经过两个月的研究，他发现慢的原因在于，原始的风格迁移过程中，每生成一张图片，都相当于要训练一次模型，这中间可能会迭代几百几千次。如果了解过一点机器学习的知识，就会知道，从头训练一个模型要比执行一个已经训练好的模型要费时太多。而这也正是原始的风格迁移速度缓慢的原因。他解决了这个技术问题后，同时开发出了手机应用。Prisma 在面世仅仅一周后，就收到了俄罗斯网络公司 http://Mail.Ru 的价值200万美元的投资。

分享这个故事的想告诉大家的是如何把AI的技术转化成相关的产品，实现数据，技术和场景的联动，才是真正的价值，也是真正的挑战。下面会给大家演示如何在阿里云上快速搭建这款价值千万美金的深度学习应用。

在阿里云上构建类似Prisma的深度学习应用

要构建深度学习应用，选择一款深度学习工具是必不可少的步骤。TensorFlow是谷歌于2015年11月9日正式开源的计算框架。TensorFlow计算框架可以很好地支持深度学习的各种算法，但它的应用也不限于深度学习。这里我们选择TensorFlow作为数值计算库，而使用的代码在github上：fast-style-transfer)

接下来，要梳理一下机器学习的工作流程，它分为数据准备，训练程序开发，训练任务执行和在线预测服务四个部分，在每个阶段都有相应的工作。

针对于这个流程，容器服务团队提供了云上机器学习解决方案。这个方案以容器服务为核心，贯穿了前面提到的机器学习生命周期，并且无缝的整合了阿里云的计算，存储，负载均衡等服务。它的好处在于利用了容器技术，但是并不需要用户深入了解容器技术。

具体操作步骤

1. 准备数据

通过osscmd和图形用户界面上传数据，当数据非常巨大时，可以考虑利用oss提供的解决方案。

2. 通过图形用户界面一键式的定制云端实验开发环境，并且支持tensorboard查看训练趋势。这里我们的目的是调试训练代码逻辑。

3. 构建云端训练，完成模型的导出

使用git导入应用代码，如果在需要安装python依赖库，可以在应用的根目录下放置requirements.txt, 这样就可以在应用初始化的时候安装这些依赖包.对于分布式存储，这里有一个约定：在执行环境的/input文件夹对应于选定oss数据卷的根目录，/output对应训练程序要输出到oss数据卷。目前云端训练支持单机和多机两种模式，如果是多机模式，需要分别指定参数和任务服务器的数量。机器学习解决方案会在调度时刻，将生成的参数传递给任务服务器，。如果训练过程中需要利用tensorboard查看训练状况也是支持的。

4. 利用导出的模型，执行在线预测

创建预测服务，这里预测服务具体支持两种： TensorFlow Serving和自定义服务。TensorFlow Serving支持加载TensorFlow导出的标准模型，自定义服务可以支持用户自己开发的预测应用。对这两种服务，都可以从数据卷中加载模型或者checkpoint，并且自动绑定负载均衡服务，同时还可以指定预测实例的个数，保证应用的高可用

总结

这次分享利用阿里云容器服务机器学习解决方案搭建了一个和Prisma功能类似的深度学习应用，并且实践了从模型训练，导出以及预测的全生命周期工作流程，这会是个逐步迭代不断优化的方案.我们后面会不断迭代优化这一方案，希望帮助数据科学家们专注于机器学习价值本身，进而提供最大的价值。

简化：一键整合机器学习应用和阿里云GPU，NAS，OSS，SLB，SLS等服务; 快速构建从模型学习到发布工作流程
优化：提供针对特定场景性能优化的TensorFlow和Caffe镜像；利用持续交付的最佳实践优化整体流程
定制化：可使用用户自定义的镜像，满足高阶用户自定义需求，平衡灵活性与自动化

最后放出彩蛋，展示一下视频风格转换的效果：

视频风格转换

参考材料

深度学习实践：使用Tensorflow实现快速风格迁移
 https://github.com/floydhub/fast-style-transfer
中国版 Prisma 来了，我们今天再聊聊深度学习

时间： 2024-08-03 21:03:16

快速在阿里云上构建机器学习应用

深度学习应用发展的介绍

在阿里云上构建类似Prisma的深度学习应用

具体操作步骤

总结

参考材料

快速在阿里云上构建机器学习应用的相关文章

如何快速在阿里云上构建自己的机器学习应用

如何在阿里云上构建高可用的跨AZ部署方案

如何在阿里云上构建高可用应用

从运维的角度分析使用阿里云数据库RDS的必要性--你不应该在阿里云上使用自建的MySQL/SQL Server/Oracle/PostgreSQL数据库

在阿里云上部署生产级别Kubernetes集群

在阿里云上两分钟玩转AlextNet

玩转阿里云上Kubernetes 1.7.2 高可用部署

携手阿里 “云上贵州”再发力

在阿里云上使用Marathon