Intel 开源 BigDL,基于 Spark 的深度学习库

近日,Intel 开源了 BigDL,这是一个基于 Apache Spark 的分布式深度学习库。使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上。

特性:

丰富的深度学习支持。BigDL 模仿 Torch,提供对深度学习的全方位支持,包括数值计算(通过Tensor)和高层次神经网络。此外,用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中。

极其高的性能。为了达到高性能,BigDL 在每个 Spark 任务中使用 Intel MKL和多线程编程。因此,它比单节点 Xeon 上的开箱即用的 Caffe、Torch 或 TensorFlow 快几个数量级。

有效地横向扩展。 BigDL 可以通过利用 Apache Spark 以及高效实施同步 SGD, 全面减少 Spark 上的通信,有效地向外扩展,以“大数据规模”执行数据分析。

使用场景:

你想要在在大数据云(Hadoop/Spark)分析(存储在如 HDFS、HBase、Hive上的)海量数据。

你想向你的大数据(Spark)程序和/或工作流添加深度学习功能(训练或者预测)。

你想利用已有的 Hadoop/Spark 集群来运行深度学习程序,然后可以与其他工作负载动态共享(例如,ETL、数据仓库、功能引擎、经典机器学习、图像分析等)。

文章转载自 开源中国社区 [http://www.oschina.net]

时间: 2024-10-25 10:37:16

Intel 开源 BigDL,基于 Spark 的深度学习库的相关文章

Intel开源基于Spark的深度学习库BigDL

近日,Intel 开源了 BigDL,这是一个基于 Apache Spark 的分布式深度学习库.使用 BigDL ,用户可以将他们的深度学习应用程序作为标准的 Spark 程序,它可以直接运行在现有的 Spark 或 Hadoop 集群之上. 特性: 丰富的深度学习支持.BigDL 模仿 Torch,提供对深度学习的全方位支持,包括数值计算(通过Tensor)和高层次神经网络.此外,用户可以使用 BigDL 将预训练的 Caffe 或 Torch 模型加载到 Spark 程序中. 极其高的性能

Intel开源了基于Apache Spark的分布式深度学习框架BigDL

Intel开源了基于Apache Spark的分布式深度学习框架BigDL.BigDL借助现有的Spark集群来运行深度学习计算,并简化存储在Hadoop中的大数据集的数据加载. 在Xeon服务器上运行的测试结果表明,BigDL比其他开源框架Caffe.Torch和TensorFlow有显著的性能提升.BigDL速度可与主流GPU匹敌,而且能够扩展到数十个Xeon服务器. BigDL库支持Spark 1.5.1.6和2.0版本,并容许将深度学习嵌入在现有的Spark程序中.BigDL库中有把Sp

英特尔开源分布式深度学习库BigDL:支持高性能大数据分析

近日,英特尔开源了一个运行在 Apache Spark 上的分布式深度学习库 BigDL,其可以利用已有的 Spark 集群来运行深度学习计算,并且还能简化从 Hadoop 的大数据集的数据加载. 开源地址>>> 据介绍,在 Xeon 服务器上的测试表明,BigDL 相比于 Caffe.Torch 或 TensorFlow 等开源框架实现了显著的速度提升.其速度可与主流的 GPU 相媲美,而且 BigDL 也能扩展到多达数十个 Xeon 服务器. BigDL 库支持 Spark 1.5.

30个深度学习库:按Python和C++等10种语言分类

本文介绍了包括 Python.Java.Haskell等在内的一系列编程语言的深度学习库. 一.Python 1.Theano 是一种用于使用数列来定义和评估数学表达的 Python 库.它可以让 Python 中深度学习算法的编写更为简单.很多其他的库是以 Theano 为基础开发的: Keras 是类似 Torch 的一个精简的,高度模块化的神经网络库.Theano 在底层帮助其优化 CPU 和 GPU 运行中的张量操作. Pylearn2 是一个引用大量如随机梯度(Stochastic G

深度学习库 Keras 2 重磅发布,与 TensorFlow 联系更紧密

昨天,著名深度学习开源库 Keras 通过官方博客正式发布了全新版本:Keras 2. 根据官方介绍,此次更新的重点有两个: Keras 2 API 将作为 TensorFlow 框架的一部分直接向用户提供支持: Keras 2 API 经过了重新设计,将成为团队第一个长期支持(long-term-support)的 API. Keras 表示:从 2015 年 3 月发布第一个版本以来,有数以百计的开发人员对 Keras 的开源代码做了完善和拓展,数以千计的热心用户在社区对 Keras 的发展

惊!C++竟然还能有这种操作——高性能深度学习库(DLL)

更多深度文章,请关注云计算频道:https://yq.aliyun.com/cloud  作为一个深度学习的老司机,你是不是以为只有Python才能够玩转深度学习?如果是这样的话,那么本文作者可能就要教你怎么"做人"了.毕竟大牛的世界我们不懂! 第一个版本C++的深度学习库(DLL)1.0发布了!DLL是一个关注速度和易用性的神经网络库.大约4年前,作者就开始编写这个库.为了获得博士学位,作者需要一个很好的库来训练和使用受限制的玻尔兹曼机器(RBMs),因为当时还没有很好的库来完成这项

开源深度学习库BigDL在阿里云E-MapReduce上的实践

近些年来机器学习中的子领域深度学习成为一个热门的话题,特别是在围棋领域,谷歌的AlphaGo也使用了深度学习的技术. 在大数据领域,Spark MLlib是一个很流行的机器学习算法库,如果你想用Spark来做深度学习训练,MLlib还无法很好的支持.本文要介绍Intel开源的深度学习框架BigDL,他也是在Spark上的一个算法库,提供了全面的深度学习算法支持,包括数值计算(Tensor)和高阶神经网络等. 因为BigDL是在Spark上运行的,借助Spark平台的分布式扩展性,可以方便的扩展到

【Spark Summit East 2017】BigDL:Spark上的分布式深度学习库

本讲义出自Yiheng Wang在Spark Summit East 2017上的演讲,主要介绍了使用Spark构建大数据平台的分布式的深度学习框架,其结合了"高性能计算"和"大数据"的架构,为Spark上的深度学习功能提供本地支持,演讲中还分享了用户通过BigDL构建的深度学习的应用程序,BigDL允许开发者使用大数据平台进行统一数据存储.数据处理和挖掘.机器学习以及深度学习等.

Spark与深度学习框架——H2O、deeplearning4j、SparkNet

引言:你可能对使用Spark服务比较感兴趣.Spark已经提供了很多功能,也有一个好用的界面,而且背后有强大的社区,开发者十分活跃,这也是人们对Spark寄予厚望的原因.深度学习是当前正在进行中的Spark项目之一.本文我们将介绍一些Spark能用的深度学习框架. 本文选自<Spark:大数据集群计算的生产实践>. 深度学习因其高准确率及通用性,成为机器学习中最受关注的领域.这种算法在2011-2012年期间出现,并超过了很多竞争对手.最开始,深度学习在音频及图像识别方面取得了成功.此外,像机