弄啥嘞?Spark将纳入机器学习与GPU

文章讲的是弄啥嘞,Spark将纳入机器学习与GPU,现在所有人的注意力都集中在人工智能上,似乎VR的火热带动了人工智能的发展。最近对全球大学人工智能教育的排名中,中国暂无高校上榜。相比于国际上各大高校实验室的火热,国内高校的动作似乎有些偏慢了。就好比加州大学伯克利分校AMP实验室所开源的Hadoop MapReduce通用并行框架Spark,在开源社区的贡献下,势头只增不减。近日,据外媒报道,Spark将纳入机器学习和GPU机制。

  机器学习大家都不陌生了,GPU加速其实一直是机器学习的得力辅助,CUDA就是我们众所周知的GPU加速套件。Databricks是一个基于Apache Spark的商业性云服务平台。Spark是一个开源集群计算框架,包括机器学习库、集群管理器、类Jupyter的互动笔记本、仪表板和作业预定。有了Databricks(作服务)后,Spark发展显著加快且Spark集群不断向外扩展。Databricks通过简化对GPU加速型机器学习库的访问支持Spark服务。GPU加速器和多个深度机器学习库集成,理论上可以在本地任何位置实现Apache Spark安装。但Databricks方面表示,为了避免资源争用情况给功能的实际使用带来复杂性影响,其版本目前仍处于调整阶段。

  Apache Spark不是自动提供并配置GPU加速器的,它是通过建立系统来支持的,早前用户必须自己搭建。为此,Databricks主动承担起这些复杂的前期工作。

  Databricks方面表示,将通过减少节点之间的资源争用数量,最大化Spark上GPU集群的性能优势。这一策略似乎与麻省理工学院的Milk看起来类似,Milk是通过加速并行处理应用程序,与内存相关的操作一律使用批处理,以保证充分利用系统的缓存资源。同样的,Databricks试图保证GPU的各项操作不会因为彼此的资源争用而中断。另一个比较节省时间的方法是添加直接访问机器学习库,这样就可以把Spark作为数据源。这其中就包括Databrick的TensorFrames,目前Spark已经与TensorFrames打通,同时实现了GPU加速。

  出于对Spark的考虑,Databricks调整了众多基础设施,创造了一个免费的服务吸引那些仍然持谨慎态度的用户,包括提供成熟产品中的部分功能。InfoWorld的Martin Heller今年早些时候就曾对该服务做出评价,除了免费之外,他认为该服务很容易使用,门槛不高。

  但该领域的竞争还是十分激烈的,尤其是要面对一些巨头玩家的压力,比如拥有Azure机器学习的微软,IBM以及Amazon。如果比烧钱,比免费,小公司难以与大公司竞争;比技术,小公司也不见得拥有多优秀的技术人才。因此,Databricks必须找到方法去保持和扩大服务受众,专注打磨自己的产品,尤其是要突出产品特色,避免产品同质化。这似乎不仅仅是增加几个机器学习库那么简单了,而是在此基础上确保使用的便利性,而不是增加其使用复杂度。

作者:zyy

来源:IT168

原文链接:弄啥嘞?Spark将纳入机器学习与GPU

时间: 2024-09-23 06:37:43

弄啥嘞?Spark将纳入机器学习与GPU的相关文章

Spark将机器学习与GPU加速机制纳入自身

Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务. 作为Apache Spark内存内大数据项目的支持与开发合作厂商,Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级,旨在让更多IT用户享受其便利. 此次推出的新功能--即GPU加速与多套深度学习库集成--在理论上能够实现Apache Spark在任意位置的安装工作.不过Databricks方面表示,其版本目前仍处于调整阶段,这是为了避免资源争用情况给功能的实际使用带来

大数据漫谈:Spark如何引燃机器学习?

文章讲的是大数据漫谈:Spark如何引燃机器学习,如今,再讨论大数据,无论是互联网行业还是传统行业似乎都有话说.大数据改变了很多,也带来了很多.人工智能作为大数据的一个重要分支,也纷纷被各大企业划入未来的规划之内.不久前,李开复就曾说过,未来的人工智能市场将比如今大火的移动互联市场要大10倍. 本文将讨论Spark的开源机器学习库Spark ML.从Spark 1.6开始,Spark ML软件包中基于DataFrame的API推荐明显多于基于RDD的API,但是还未完全取代.从Spark 2.0

【Spark Summit East 2017】Spark 2.0机器学习大规模实践经验

本讲义出自Berni Schiefer在Spark Summit East 2017上的演讲,主要介绍了关于Spark 2.0进行大规模机器学习的实际经验,而Berni Schiefer所使用的测试平台不同于典型的Hadoop集群而是为了实现更高的性能而采用了全新的集群设计,使用更多的核心.RAM以及最新的SSD以及100GbE.

避免关注底层硬件,Nvidia将机器学习与GPU绑定

[编者按]Nvidia通过发布cuDNN库,将GPU和机器学习更加紧密的联系起来,同时实现了cuDNN与深度学习框架的直接整合,使得研究员能够在这些框架上无缝利用GPU,忽略深度学习系统中的底层优化,更多的关注于更高级的机器学习问题. 以下为译文 近日,通过释放一组名为cuDNN的库,Nvidia将GPU与机器学习联系的更加紧密.据悉,cuDNN可以与当下的流行深度学习框架直接整合.Nvidia承诺,cuDNN可以帮助用户更加聚焦深度神经网络,避免在硬件性能优化上的苦工. 当下,深度学习已经被越

用Spark机器学习数据流水线进行广告检测

在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案.关键点: 了解机器学习数据流水线有关内容. 怎么用Apache Spark机器学习包来实现机器学习数据流水线. 数据价值链处理的步骤. Spark机器学习流水线模块和API. 文字分类和广告检测用例. Spark ML(spark.ml)包提供了构建在DataFrame之上的机器学习API,它已经成了Spark SQL库的核心部分.这个包可以用于开发和管理机器

《 Apache Spark机器学习.》导读

本节书摘来自华章出版社< Apache Spark机器学习.>一书中作者[美] 刘永川(Alex Liu) 著 闫龙川 高德荃 李君婷 译  前 言 作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测.预测客户流失,或者在广泛的领域将数据转换为洞见.为此,我们有时需要处理大量的数据和复杂的计算.因此,我们一直对新的计算工具满怀期待,例如Spark,我们花费了很多时间来学习新工具.有很多可用的资料来学习这些新的工具,但这些资料大多都由计算机科学家编写,更多的是从计算角度来描述.

Apache Spark机器学习.1.4 MLlib

1.4 MLlib MLlib是一个可扩展的Spark机器学习库,包括很多常用的机器学习算法.MLlib内置的算法如下: 以向量和矩阵形式处理数据 基本的统计计算,例如:汇总统计和相关性.简单随机数生成.分层抽样.执行简单的假设检验 分类和回归建模 协同过滤 聚类 降维 特征提取与转换 频繁模式挖掘 开发优化 PMML模型导出 Spark MLlib还处在活跃开发阶段,预计每次新版发布都会有新的算法加入其中. MLlib符合Apache Spark的计算哲学,简单易用,性能卓越. MLlib使用

Apache Spark机器学习.1.5 Spark RDD和DataFrame

1.5 Spark RDD和DataFrame 本节关注数据以及Spark如何表示和组织数据.我们将介绍Spark RDD和DataFrame技术. 通过本节的学习,读者将掌握Spark的两个关键概念:RDD和DataFrame,并将它们应用于机器学习项目. 1.5.1 Spark RDD Spark主要以一种分布式项集合的形式进行数据抽象,称之为弹性分布式数据集(Resilient Distributed Dataset,RDD).RDD是Spark的关键创新,使其比其他框架计算更加快速和高效

Apache Spark机器学习.1.1 Spark概述和技术优势

摘要 Spark机器学习简介 本章从机器学习和数据分析视角介绍Apache Spark,并讨论Spark中的机器学习计算处理技术.本章首先概括介绍Apache Spark,通过与MapReduce等计算平台进行比较,展示Spark在数据分析中的技术优势和特点.接着,讨论如下五个方面的内容: 机器学习算法与程序库 Spark RDD和DataFrame 机器学习框架 Spark pipeline技术 Spark notebook技术 以上是数据科学家或机器学习专业人员必须掌握的五项最重要的技术内容