BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

2015-2016 的机器学习平台开源大潮中,美国是当之无愧的引领者:无论是谷歌、亚马逊、微软、IBM 等互联网巨头,还是美国各大科研院所,为开源世界贡献了品类繁多的机器学习工具。这其中不乏华人的身影,比如开发出 Caffe 的贾杨清。

但在大陆这边,无论是 BAT 还是学界,在开源机器学习项目上始终慢了一拍,令人十分遗憾。这与我国世界最大 AI 研究者社区、占据 AI 科研领域半壁江山的江湖地位*颇为不符。让人欣喜的是,2016 下半年,百度和腾讯先后发布了它们的开源平台战略。虽然姗姗来迟,但作为下半场入场的选手,它们的开源平台各自有什么意义?本文中,作为机器学习开源项目盘点的第三弹,雷锋网将与你一起看看包括百度腾讯平台在内的国内四大开源项目。

*注:据创新工场人工智能工程院王咏刚副院长统计,我国 AI 发文数与引用文章数居世界第一,占世界总数一半以上。

1. 百度:希望获得开发者青睐的 “PaddlePaddle”

2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。

其实,PaddlePaddle 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 “Paddle”。当时的深度学习框架大多只支持单 GPU 运算,对于百度这样需要对大规模数据进行处理的机构,这显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多 GPU、多台机器并行计算的深度学习平台。而这就导致了 Paddle 的诞生。自 2013 年以来,Paddle 一直被百度内部的研发工程师们所使用。

而 Paddle 的核心创始人,当年的百度深度学习实验室研究员徐伟,现在已是 PaddlePaddle 项目的负责人。

徐伟

对了,从 “Paddle” 到 “PaddlePaddle” 的命名还有一个小插曲:Paddle 是“Parallel Distributed Deep Learning”的缩写,意为“并行分布式深度学习”。而去年 9 月发布时,吴恩达认为 “PaddlePaddle” (英语意为划船——“让我们荡起双~昂~桨,小船儿推开波浪。。。”)其实更郎朗上口、更好记,于是就有了这么个可爱的名字。

那么,PaddlePaddle 有什么特点?

  • 支持多种深度学习模型 DNN(深度神经网络)、CNN(卷积神经网络)、 RNN(递归神经网络),以及 NTM 这样的复杂记忆模型。
  • 基于 Spark,与它的整合程度很高。
  • 支持 Python 和 C++ 语言。
  • 支持分布式计算。作为它的设计初衷,这使得 PaddlePaddle 能在多 GPU,多台机器上进行并行计算。

相比现有深度学习框架,PaddlePaddle 对开发者来说有什么优势?

  • 首先,是易用性。

相比偏底层的谷歌 TensorFlow,PaddlePaddle 的特点非常明显:它能让开发者聚焦于构建深度学习模型的高层部分。项目负责人徐伟介绍:

“在PaddlePaddle的帮助下,深度学习模型的设计如同编写伪代码一样容易,设计师只需关注模型的高层结构,而无需担心任何琐碎的底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,让人工智能发挥出最大作用。”

抛开底层编码,使得 TensorFlow 里需要数行代码来实现的功能,可能在 PaddlePaddle 里只需要一两行。徐伟表示,用 PaddlePaddle 编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。这显然考虑到该领域广大的初入门新手,为他们降低开发机器学习模型的门槛。这带来的直接好处是,开发者使用 PaddlePaddle 更容易上手。

  • 其次,是更快的速度。

如上所说,PaddlePaddle 上的代码更简洁,用它来开发模型显然能为开发者省去一些时间。这使得 PaddlePaddle 很适合于工业应用,尤其是需要快速开发的场景。

另外,自诞生之日起,它就专注于充分利用 GPU 集群的性能,为分布式环境的并行计算进行加速。这使得在 PebblePebble 上,用大规模数据进行 AI 训练和推理可能要比 TensorFlow 这样的平台要快很多。

说到这里,业内对  PaddlePaddle 怎么看?

首先不得不提的是 Caffe,许多资深开发者认为 PaddlePaddle 的设计理念与 Caffe 十分相似,怀疑是百度对标 Caffe 开发出的替代品。这有点类似于谷歌 TensorFlow 与 Thano 之间的替代关系。

知乎上,Caffe 的创始人贾杨清对 PaddlePaddle 评价道:

  • "很高质量的GPU代码"
  • "非常好的RNN设计"
  • "设计很干净,没有太多的 abstraction,这一点比 TensorFlow 好很多"
  • "设计思路有点老"
  • "整体的设计感觉和 Caffe ‘心有灵犀’,同时解决了Caffe早期设计当中的一些问题”

最后,贾表示 PaddlePaddle 的整体架构功底很深,是下了功夫的。这方面,倒是赢得了开发者的普遍认同。

总结起来,业内对 PaddlePaddle 的总体评价是“设计干净、简洁,稳定,速度较快,显存占用较小”

但是,具有这些优点,不保证 PaddlePaddle 就一定能在群雄割据的机器学习开源世界占有一席之地。有国外开发者表示, PaddlePaddle 的最大优点是快。但是,比 TensorFlow 快的开源框架其实有很多:比如 MXNet,Nervana System 的 Neon,以及三星的 Veles,它们也都对分布式计算都很好的支持,但都不如 TensorFlow 普及程度高。这其中有 TensorFlow 庞大用户基础的原因,也得益于谷歌自家 AI 系统的加持。

百度的 AI 产品能够对普及 PaddlePaddle 产生多大的帮助,尚需观察。雷锋网获知,它已经应用于百度旗下的多项业务。百度表示:

“PaddlePaddle 已在百度30多项主要产品和服务之中发挥着巨大的作用,如外卖的预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等领域。”

最后,我们来看看对于自家推出的 PaddlePaddle,李彦宏怎么说:

“经过了五六年的积累,PaddlePaddle实际上是百度深度学习算法的引擎,把源代码开放出来,让同学们、让社会上所有的年轻人能够学习,在它的基础上进行改进,我相信他们会发挥出来他们的创造力,去做到很多我们连想都没有想过的东西。”

2. 腾讯:面向企业的 “Angel”

2016,鹅厂在 AI 领域展开一系列大动作:

  • 9 月,成立 AI 实验室。
  • 11 月,获得 Sort Benchmark 大赛的冠军
  • 12月18日,在腾讯大数据技术峰会暨 KDD China 技术峰会上对外公开 “Angel” 的存在,并透漏它就是拿下 Sort Benchmark 冠军背后的天使。
  • (即将)在 2017 年一季度,开放 Angel 源代码。

Angel 将成为 PaddlePaddle 之后、BAT 发布的第二个重磅开源平台。那么,它到底是什么?

简单来说,Angel 是面向机器学习的分布式计算框架,由鹅厂与香港科技大学、北京大学联合研发。腾讯表示,它为企业级大规模机器学习任务提供解决方案,可与 Caffe、TensorFlow 和 Torch 等业界主流深度学习框架很好地兼容。但就雷锋网所知,它本身并不算是机器学习框架,而侧重于数据运算。

上个月 18日的发布会上,腾讯首席数据专家蒋杰表示:

“面对腾讯快速增长的数据挖掘需求,我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架,并且它要对用户足够友好,具有很低的使用门槛,就这样,Angel 平台应运而生。”

这其中的关键词,一个是“大”规模数据,另一个是“低”使用门槛。

  • “大”方面,企鹅表示 Angel 支持十亿级别维度的模型训练

    “Angel 采用多种业界最新技术和腾讯自主研发技术,包括 SSP(Stale synchronous Parallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使 Angel 性能大幅提高,达到 Spark 的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”

  • “低”方面,Angel 并没有采用机器学习领域标配的 Python,而使用企业界程序猿最熟悉的 Java,以及 Scala 。企鹅声明:“在系统易用性上,Angel 提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置。同时,用户能像使用 MR、Spark 一样在 Angel 上编程,我们还建设了拖拽式的一体化的开发运营门户,屏蔽底层系统细节,降低用户使用门槛。”

总的来讲,Angel 的定位是对标 Spark 。蒋杰宣称,它融合了 Spark 和 Petuum 的优点。“以前Spark能跑的,现在Angel快几十倍;以前Spark跑不了的,Angel也能轻松跑出来。”

其实,Angel 已经是鹅厂的第三代大数据计算平台。

  1. 第一代是基于 Hadoop 的深度定制版本“TDW”,它的重点是“规模化”(扩展集群规模)。
  2. 第二代集成了Spark 和 Storm,重点是提高速度,“实时化”。
  3. 第三代自研平台 Angel,能处理超大规模数据,重点是“智能化”,专门对机器学习进行了优化。

这三代平台的演进,从使用第三方开源平台过渡到自主研发,涵盖了从数据分析到数据挖掘、从数据并行到模型并行的发展。现在 Angel 已支持 GPU 运算,以及文本、语音、图像等非结构化数据。自今年初在鹅厂内部上线以来,Angel 已应用于腾讯视频、腾讯社交广告及用户画像挖掘等精准推荐业务。另外,国内互联网行业开口闭口就要打造“平台”、“生态”的风气,鹅厂也完美继承:“Angel 不仅仅是一个只做并行计算的平台,更是一个生态”——这种话虽然不耐听,但腾讯的大数据野心可见一斑。

12 月 18 日晚,马化腾在微信朋友圈写道:“AI与大数据将成为未来各领域的标配,期待更多业界同行一起开源携手互助。”

但对于机器学习社区,Angel 开源的意义是否如同鹅厂宣称的那样大?

对此,机器学习界的“网红”、微软研究员彭河森说道:

“对于小一点的公司和组织,Spark 甚至MySQL 都已经够了(为了政治正确我提一下 PostgresQL);而对于大一点真的用得上Angel的企业,如阿里巴巴等,早就自主开发了自己的大数据处理平台。”

因此,他总结 Angel 的发布是一个“很尴尬的时间和市场定位”

彭河森

与百度 PaddlePaddle 相比,Angel 有一个很大的不同:它的服务对象是有大数据处理需求的企业,而不是个人开发者。可惜的是,由于 Angel 尚未正式开源,大数据、机器学习同行们无法对其进行一番评头论足。目前所有的信息都来自于鹅厂的官方宣传。关于 Angel 开放源代码后能在业界引发多大反响,请关注雷锋网(公众号:雷锋网)后续报道。  

最后,我们来看看蒋杰对 Angel 开源意义的官方总结:

“机器学习作为人工智能的一个重要类别,正处于发展初期,开源Angel,就是开放腾讯18年来的海量大数据处理经验和先进技术。我们连接一切连接的资源,激发更多创意,让这个好平台逐步转化成有价值的生态系统,让企业运营更有效、产品更智能、用户体验更好。”

更多信息请看雷锋网整理的腾讯 Angel 发布会实录:腾讯大数据宣布开源第三代高性能计算平台Angel 

3. 阿里巴巴: 犹抱琵牌半遮面的 DTPAI

但凡说到平台,就不能不提阿里。

与百度比起来,阿里的 AI 战略布局看上去更“务实”:主要是依托阿里云计算、贴近淘宝生态圈的一系列 AI 工具与服务,比如阿里小蜜。而基础研究起步较晚,相对百度和鹅厂也更低调。 2016 年阿里 AI 战略的大事件是 8 月 9 日的云栖大会,马云亲自站台发布了人工智能 ET,而它的前身是阿里“小Ai ”。综合目前信息,阿里想要把 ET 打造成一个多用途 AI 平台:应用于语音、图像识别,城市计算(交通),企业云计算,“新制造”,医疗健康等等领域,让人不禁联想起 IBM Watson。用阿里的话来说,ET 将成为“全局智能”。

但是,在开源项目方面,阿里有什么布局(马云最喜欢用这样的词)?

答案有惊喜也有失望。

好消息是,阿里早在 2015 年就宣布了数据挖据平台 DTPAI (全称:Data technology,the Platform of AI,即数据技术—人工智能平台)。

坏消息是,那之后就没动静了。

当时,也就是 2015 年的八月,阿里宣布将为阿里云客户提供付费数据挖掘服务 DTPAI。当然,对它的发布免不了大谈特谈一通“生态”、“平台”——宣称 DTPAI 是“中国第一个人工智能平台”。格调定得相当高。

它有什么特点?

首先, DTPAI 将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里 ODPS 和 iDST 产品经理韦啸表示,DTPAI 支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与MapReduce、Spark、DMLC、R 等开源技术对接。

若仅仅如此,一个阿里云的付费数据挖据工具还不会出现在这篇文章中。雷锋网真正感兴趣的是:阿里表示 DTPAI “未来会提供通用的深度学习框架,它的算法库将在后期向社会开放”。

嗯,有关 DTPAI 的信息到此为止。Seriously,2015 年之后它就再也没消息了。阿里云是耍猴还是在憋大招? 我们只有走着瞧。

4. 山世光:大陆学界硕果仅存的 SeetaFace

盘点了 BAT 的开源平台规划,再来看一个始于学界的项目。与国外 AI 学界百花齐放的现状不同,大多数人从未听说过始于国内学界的机器学习开源项目,这方面几乎是空白一片——说是“几乎”,因为有中科院计算所山世光老师带领开发的人脸识别引擎  SeetaFace 。

山老师是我国 AI 界的学术大牛之一,2016 年下半年已经下海创业,创业后不久就公开了 SeetaFace。山老师的研究团队表示,开源 SeetaFace 是因为“该领域迄今尚无一套包括所有技术模块的、完全开源的基准人脸识别系统”。而 SeetaFace 将供学界和工业界免费使用,有望填补这一空白。

SeetaFace 基于 C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块(SeetaFace Detection)、面部特征点定位模块(SeetaFace Alignment)以及人脸特征提取与比对模块 (SeetaFace Identification)

该系统用单个英特尔 i7 CPU 就可运行,成功降低了人脸识别的硬件门槛。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入 SeetaFace,大幅减少开发成本。

雷锋网深度大讲堂对 SeetaFace 背后的技术做了详细介绍,具体请看什么是SeetaFace开源人脸识别引擎?

相关文章:

如何评价百度刚刚开源的Paddle平台?

腾讯大数据宣布开源第三代高性能计算平台Angel | 重磅

CNCC 2016 | 山世光:深度化的人脸检测与识别技术—进展与展望

什么是SeetaFace开源人脸识别引擎?

盘点四大民间机器学习开源框架:Theano、Caffe、Torch 和 SciKit-learn

谷歌、微软、OpenAI 等巨头的七大机器学习开源项目 看这篇就够了

本文作者:三川

本文转自雷锋网禁止二次转载,原文链接

时间: 2024-10-03 15:27:42

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台的相关文章

盘点国内P2P网贷平台“吉尼斯”之最

纵观国内P2P网贷平台的发展,可以用一句话来总结:这是一个最好的时代,也是一个最差的时代.大浪过后,是沙子还是金子,在国家相关政策出台后,就将初现端倪.小编在P2P行业中也算是略有资历,今天闲来没事,就给大家八一八国内P2P网贷平台各种"吉尼斯"之最,如果有说的不对的地方,欢迎各位看官来电来信来钱来辩.顺便提一句,本人家里没装水表. 国内创办最早的P2P网贷平台--宜信财富 宜信财富总部坐落在我大帝都,成立于2006年5月份,是国内创办最早的P2P网贷平台.宜信是一家集财富管理.信用风

盘点国内四大网络安全对抗赛

网络安全对抗赛这一国际流行的竞技形式,2014年起便在国内开始慢慢升温:发展至今日,已十分受国内高校和安全企业的青睐. 在刚刚过去的2016年,网络安全对抗赛在国内各地仍是如火如荼地进行.而这其中,因其联赛赛制而规模最大,举办时间最早,历时最长的XCTF联赛,便是我们要谈的第一个赛事. XCTF联赛 2015年11月至2016年7月,第二届XCTF联赛举行,设立了3站国内赛和4站国际赛.其上海站与拥有中国大陆区唯一DEFCON CTF外卡赛资格的0CTF合办,冠军队伍可直接入围DEFCON CT

盘点国内云计算平台:盛大最早阿里最贵

摘要: 过去的2012年是云计算在中国成为主流的一年.随着云计算技术和应用的日益成熟,更多的用户开始应用基于云的服务,更多的企业开始落地云计算. 国内如腾讯.百度.阿里巴巴等互 过去的2012年是云计算在中国成为主流的一年.随着云计算技术和应用的日益成熟,更多的用户开始应用基于云的服务,更多的企业开始落地云计算. 国内如腾讯.百度.阿里巴巴等互联网巨头纷纷加大研发投入,布局云计算,本文盘点国内互联网公司部署的云计算平台,以提供参考. 腾讯 已经运营两年的腾讯云平台将于2013年3月初全面开放.相

盘点国内互联网云计算平台:盛大最早阿里最贵

刚刚过去的2012年是云计算在中国成为主流的一年.随着云计算技术和应用的日益成熟,更多的用户开始应用基于云的服务,更多的企业开始落地云计算. 国内如腾讯.百度.阿里巴巴等互联网巨头纷纷加大研发投入,布局云计算,本文盘点国内互联网公司部署的云计算平台,以提供参考. 腾讯 已经运营两年的腾讯云平台将于2013年3月初全面开放.相比于国内其它云平台,腾讯云平台仅面向移动开发者提供各种技术支持,从社交化内容存储.移动网络加速.LBS.点对点通讯.移动安全和移动数据分析六个方面帮助移动开发者. 目前使用腾

盘点国内的众筹模式:回报众筹和股权众筹

众筹2009年开始发展,Kickstarter可谓是众筹领域的鼻祖.国内的众筹从2011年开始起步,点名时间是国内第一家众筹平台.三年下来,随着互联网金融的普及,越来越多的个人投资人者倾向于这种众筹平台的投资,也许目前这是发烧友或者是看重投资回报那些人的游戏,但不可否认,众筹正在颠覆原始的融资形态,并在文化.互联网.公益.娱乐.制造业等方方面面的渗透中,未来也将会有更大的想象空间.亿欧网盘点目前国内外的主流众筹模式,供大家参考. 一.回报众筹 国内众筹鼻祖:智能设备众筹平台点名时间(2011年5

盘点国内的N种众筹模式

中介交易 SEO诊断 淘宝客 云主机 技术大厅 [导读] 众筹2009年开始发展,Kickstarter可谓是众筹领域的鼻祖.国内的众筹从2011年开始起步,三年下来,众筹正在颠覆原始的融资形态,并在文化.互联网.科技.公益.娱乐.农业.制造业等方方面面中渗透,未来也将会有更大的想象空间. 众筹2009年开始发展,Kickstarter可谓是众筹领域的鼻祖.国内的众筹从2011年开始起步,点名时间是国内第一家众筹平台.三年下来,随着互联网金融的普及,越来越多的个人投资人者倾向于这种众筹平台的投资

谁能成为中国的亚马逊:盘点国内云服务商

说起"亚马逊",我们最早了解它,只是一个在网上卖书的公司,业务类似于国内的当当网.卓越等.但是,随着"云计算"这个IT热词,像热带雨林的风暴一样席卷中国市场时,我们才知道,原来早已经有一个非常成功的云计算提供商叫"亚马逊". 亚马逊公司云计算领域的成功和辉煌业绩,让国内外的很多科技公司垂涎三尺.很多IT能人志士纷纷下手探一探云计算的水到底有多深.在国内外云计算市场,有很多IT厂商希望能够学习"亚马逊"做云计算的模式,但是目前都

深度学习在2016年都有哪些主要研究进展?(附开源平台地址)| 盘点

在过去的几年时间里,深度学习(Deep Learning)一直都是机器学习社区的核心主题, 2016年也不例外.  研究人员长久以来亟待解决的一个主要挑战就是无监督学习(Unsupervised Learning).Tryolabs 认为,2016 年对于这一领域来说是取得伟大突破的一年,主要原因是出现了大量的基于生成模型(Generative Models)的研究.此外,雷锋网会介绍自然语言处理(NLP)技术在 2016 年所取得的创新,这些技术会是实现该目标的关键.除了回顾那些推动该领域快速

盘点四大民间机器学习开源框架:Theano、Caffe、Torch 和 SciKit-learn

本期,我们将带领大家来看看诞生于民间(学界)的另外四大开源项目: 1. Theano Theano 在深度学习框架中是祖师级的存在.它的开发始于 2007,早期开发者包括传奇人物 Yoshua Bengio 和 Ian Goodfellow. Theano 基于 Python,是一个擅长处理多维数组的库(这方面它类似于 NumPy).当与其他深度学习库结合起来,它十分适合数据探索.它为执行深度学习中大规模神经网络算法的运算所设计.其实,它可以被更好地理解为一个数学表达式的编译器:用符号式语言定义