厉害了!雅虎开源TensorFlowOnSpark

去年雅虎结合了大数据和机器学习领域的两大明星,将内存数据处理框架Spark与深度学习框架Caffe集成。在Spark中编写的应用程序将使用Caffe的训练功能,或者使用经过训练的模型来进行Spark本地机器学习无法实现的预测。

今年,雅虎又发了一波大招,最新的Yahoo开源项目TensorFlowOnSpark(TFoS)(Github地址:https://github.com/yahoo/TensorFlowOnSpark)再次融合了深度学习和大数据框架,据说能够更有效地大规模运行,并且几乎没有改变现有的Spark应用程序。

在一篇博客文章中,雅虎的Big ML工程师团队描述了为什么要实现深层思维和大数据的混合,这是为了让TensorFlow更易分布式部署在现有集群上。Databricks的TensorFrames,它同时使用了GPU加速和SparkNet项目,正好与Spark在同一个伯克利实验室创建的。雅虎说:“虽然这些方法是正确的,但在检查完代码后,发现无法使TensorFlow进程直接进行通信,无法实现异步分布式学习 ,我们将不得不花费大量精力来迁移现有的TensorFlow程序。TFoS就是为了应对这类项目中的不足。

TFoS被设计为在现有的Spark和Hadoop集群上运行,并使用现有的Spark库,如SparkSQL或Spark的MLlib机器学习库。雅虎声称现有的TensorFlow程序不需要大量修改就可以使用TFoS。通常,这种改变少于10行Python代码,TensorFlow的并行实例可以直接相互通信,而无需通过Spark本身。数据可以从TensorFlow的本地设备中获取,以便从HDFS或通过Spark读取。

当使用远程直接内存访问(RDMA)时,集群机器学习框架运行速度更快。原来的TensorFlow项目不支持RDMA作为核心功能,雅虎选择创建自己的RDMA支持,并将其添加到TensorFlow的C ++层。

即使没有雅虎的贡献,TensorFlow也取得了飞跃式的进步。第一个完整的1.0版本的框架也引入了优化,使其可以部署在智能手机级硬件上,IBM选择TensorFlow作为其自定义机器学习硬件的深度学习系统。

当涉及到大规模运行时,TensorFlow最直接的竞争对手就是MXNet,亚马逊推出的一款深度学习系统。亚马逊声称MXNet在跨越多节点上更有竞争优势,所以如果你的问题处理过程需要投入硬件,MxNet训练模型速度会更快。这将是值得与TensorFlowOnSpark比较的地方——在大集群上的运行情况和工作便利度。

本文转自d1net(转载)>

时间: 2024-10-10 10:10:14

厉害了!雅虎开源TensorFlowOnSpark的相关文章

雅虎开源了TensorFlowOnSpark

雅虎开源了TensorFlowOnSpark,数据科学家和工程师们可以直接利用运行于CPU/GPU架构上的Spark或者Hadoop做分布式模型训练.据报道,这个库支持把现有的TensorFlow程序切换到新的API,同时实现了模型训练的性能提升. 在开源公告里,雅虎说明了TensorFlowOnSpark想解决的问题,比如在深度神经网络训练中管理Spark数据管线之外的其他集群带来的运维负载,以网络I/O为瓶颈的数据集在训练集群的传入和传出,令人讨厌的系统复杂性,以及端到端的整体学习时延.Te

雅虎开源 MySQL Partition Manager

雅虎开源数据库分区表管理器 MySQL Partition Manager ,你可在 GitHub 查看它的源码. 雅虎内容管理大量的 MySQL 数据库,它们分布在不同的数据中心.在有数千个数据库,每个数据库有大量的分区表.为了高效地创建和维护分区表,他们开发了这个分区管理器,以最低的预配置来自动管理分区. 雅虎数据库工程团队还在 blog 表示,他们将与 MySQL 社区保持的互动,并开发出更多特性. ====================================分割线======

雅虎开源其JavaScript 框架Mojito

  雅虎近日开源了其JavaScript框架Mojito,该框架是雅虎于去年11月份推出的Cocktails(鸡尾酒)移动开发平台的一部分,允许开发者在连接的设备以及后端服务上部署HTML5应用程序.     根据官方介绍:     引用     Mojito是一个JavaScript Web应用框架,使用其开发的程序可同时运行在浏览器和服务器端.也就是说,使用Mojito,开发人员不必再为后端的服务器及前端浏览器分别编写不同的代码了.而且,不必害怕Web页面会提示"必须启用JavaScript

雅虎开源发布/订阅消息平台Pulsar

雅虎发布了其发布-订阅消息平台Pulsar,这个平台在他们内部已经用在了多项服务的生产环境之中. 按照雅虎的说法,Pulsar是一个低延迟的发布/订阅消息系统,它可以进行水平扩展,跨多个主机和数据中心.雅虎从2015年第二季度开始,就一直在邮件.财经.Gemini Ads.Sherpa(雅虎的分布式key-value服务--译注)以及体育相关的功能中使用Pulsar.通过将其开源,他们希望Pulsar能够与其他开源项目进行集成,从而促使它得到广泛的应用.雅虎已经将Pulsar部署到了十个以上的数

雅虎开源 MySQL 性能监控和分析器(Java)

MySQL Performance Analyzer 是雅虎公司的一个 MySQL 性能监控和分析工具,该项目包含两个子项目,分别是 Java web 应用项目 myperf 和 Java Web 服务器 Jetty 的封装. 该项目的 pom.xml 指定要 JDK 8 支持,但项目没有用到任何 JDK 8 才有的特性,因此可修改为 JDK 7 即可. 文章转载自 开源中国社区 [http://www.oschina.net]

雅虎开源 IaaS 帮助开发者建立自己的云服务

雅虎最近宣布开源的 IaaS(Infrastructure as a Service), 意味着用户可以下载到雅虎内部使用的 IaaS 服务器.开发者通过"云服务引擎"可以在凌驾于虚拟机层面的容器中建立自己的云服务,并能够提供一系列的 IaaS 和 http://www.aliyun.com/zixun/aggregation/16038.html">PaaS 混合服务. 如今新生的云服务提供商想要与现有的IaaS和PaaS引擎展开市场竞争绝非易事,像亚马逊.Racks

雅虎开源解析 HTML 页面数据的 Web 爬取工具 Anthelion

Yahoo 宣布开源解析 HTML 页面结构数据的 Web 爬取工具 Anthelion. Web 爬行工具是 Yahoo 很重要的核心,甚至超过了其他应用: Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr 和 Tumblr. 上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:"Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa.&

TensorFlow 1.0 正式发布;微软开源无人机虚拟训练平台 AirSim | AI开发者头条

TensorFlow 1.0  正式发布! 在昨晚揭幕的 TensorFlow 开发者峰会上,谷歌正式发布了 TensorFlow 1.0 版本.新版本带来三大主要优化: 大幅提升的运算速度,尤其是对于多 GPU.分布式计算场景. 对高级别 API 有更好的兼容性,尤其完全兼容 Keras 改进 API 稳定性  注:本次峰会是 TensorFlow 史上第一届开发者峰会,在加州山景城举行,颇值得大家关注.详情请关注雷锋网后续报道. TensorFlow 1.0 详情:http://www.le

百度推出基于AI的情人节主题功能;牛津大学2017自然语言处理课程公开(附视频及PPT) | AI开发者头条

情人节降至,百度推出基于 AI 的魅力值测评和诗歌自动生成主题功能 百度搜索在近日推出了基于人工智能技术的"情人节用脸撩,开启桃花运"功能,迎接情人节.用户在百度搜索 App 中需用语音说一句"开启桃花运"即可进入主题页面.该页面包含两大核心功能:一个是"自拍撩汉/妹指数",即根据照片颜值打分的功能,另一个则是输入姓名/地点后自动生成专属诗歌的功能. 详情:http://www.leiphone.com/news/201702/nyTmxpTMd