Spark将机器学习与GPU加速机制纳入自身

Databricks公司通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。

作为Apache Spark内存内大数据项目的支持与开发合作厂商,Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级,旨在让更多IT用户享受其便利。

此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示,其版本目前仍处于调整阶段,这是为了避免资源争用情况给功能的实际使用带来复杂性影响。

Apache Spark本身并不具备开箱即用的GPU加速功能,且需要设置一套系统对此加以支持,这意味着用户需要面对多种复杂组件。有鉴于此,Databrick公司决定承担起相关难题。

Databricks方面还宣称,其将降低节点间的资源争用数量,从而最大程度保证Spark的运作能够充分发挥GPU集群的性能优势。这一思路与麻省理工学院的Milk库看起来非常类似,后者同样利用加速机制并发处理应用,旨在确保与内存相关的操作以批量方式进行,最终实现对系统缓存资源的最大化利用。Databricks公司的设置能够保证各项GPU操作之间不会相互导致冲突乃至中断。

另一项能够显著节约时间的举措在于直接访问多种主流机器学习库,这意味着Spark将可作为数据源起效。其中包括Databricks自家的TensorFrames库,其允许将TensorFlow库与Spark相配合,同时实现GPU加速能力。

Databricks 公司已经在推文中表示,其基础设施能够充分利用Spark的自身优势。其建立起免费级服务,用以吸引那些仍对深度使用Spark抱有警惕心理的客户,包括为其提供完整产品中的部分功能。根据InfoWorld网站此前发布的评测报告,Databricks的免费产品确实相当出色且易于上手。

不过市场竞争仍然相当激烈,特别是考虑到Databricks需要面对像微软(拥有Azure机器学习方案)、IBM以及Amazon这样的巨头级对手。因此,其必须找到保持并扩大服务受众规模的可行途径,并专注于打造自身独特的服务产品。除了添加机器学习与GPU加速等功能之外,Databricks还需要在发展计划中确保新特性能够切实带来便利——而非提升复杂程度。

本文作者:核子可乐

来源:51CTO

时间: 2024-09-20 23:22:31

Spark将机器学习与GPU加速机制纳入自身的相关文章

弄啥嘞?Spark将纳入机器学习与GPU

文章讲的是弄啥嘞,Spark将纳入机器学习与GPU,现在所有人的注意力都集中在人工智能上,似乎VR的火热带动了人工智能的发展.最近对全球大学人工智能教育的排名中,中国暂无高校上榜.相比于国际上各大高校实验室的火热,国内高校的动作似乎有些偏慢了.就好比加州大学伯克利分校AMP实验室所开源的Hadoop MapReduce通用并行框架Spark,在开源社区的贡献下,势头只增不减.近日,据外媒报道,Spark将纳入机器学习和GPU机制. 机器学习大家都不陌生了,GPU加速其实一直是机器学习的得力辅助,

CNNdroid:在 Android 上利用 GPU 加速执行 CNN (卷积神经网络)

摘要 智能设备和可穿戴设备都将受益于深度学习算法(比如CNN)的准确性和可扩展性.然而,性能和能耗等现实的问题使得在移动端设备上这类密集计算的算法变得非常受限.我们开发了CNNdroid这个GPU加速库,可以在Android设备上实现CNN网络的训练.通过实验,CNNdroid在移动设备上实现了60倍速的提升,以及130倍速的节能.CNNdroid这个库已经开源在Github上,可以从Github项目页面下载. 关键词 Deep Learning, Deep Convolutional Neur

GPU加速深度学习

1. 背景 一年半以前,AlphaGo完胜李世乭的围棋赛让深度学习(Deep Learning)这个名词家喻户晓,再度掀起人工智能的新一波热潮.其实深度学习背后的神经网络基础理论早在上世纪50年代就已提出,经过几起几落的发展,到了21世纪初,多层神经网络算法也日趋成熟.深度学习理论早在十多年以前就有重要突破,为何直到近年才出现爆发.这不得不提到2012年的一场竞赛. 2012年,Geoffrey E. Hinton(与Yann LeCun 和Yoshua Bengio并称为深度学习三驾马车)的弟

计算机视觉标准OpenCV支持CUDA GPU加速

GTC++ 2010 GPU技术大会上,NVIDIA宣布CUDA GPU硬件加速技术已经支持开放式计算机视觉标准OpenCV,可在机器人.汽车.医疗.消费.安全.制造.科研等众多领域用来开发先进应用程序.OpenCV是由Intel.Willow Garage主导开发的开源计算机视觉库,轻量而且高效,包括一系列C函数和少量C++类,是图像处理和计算机视觉方面的通用算法,支持Windows. Linux.Mac OS三大平台,迄今已有数千名http://www.aliyun.com/zixun/ag

NVIDIA Jetson TK1学习与开发(九):基于GPU加速的OpenCV人体检测(Full Body Detection)

基于GPU加速的OpenCV人体检测(Full Body Detection) 1.CUDA和OpenCV的安装 首先,确定一下自己的平台是否安装好了CUDA和OpenCV. CUDA的安装可以参考:http://blog.csdn.net/frd2009041510/article/details/42042807和http://blog.csdn.net/frd2009041510/article/details/42925205 OpenCV的安装可以参考:http://blog.csdn

一篇文章为你详解什么是 GPU 加速

众所周知,网页不仅应该被快速加载,同时还应该流畅运行,比如快速响应的交互,如丝般顺滑的动画-- 一. GPU 加速能做什么? 首先我们要了解什么是 16ms 优化 大多数设备的刷新频率是 60 次/秒,(1000/60 = 16.6ms)也就说是浏览器对每一帧画面的渲染工作要在 16ms 内完成,超出这个时间,页面的渲染就会出现卡顿现象,影响用户体验. 浏览器在一帧里面,会依次执行以下这些动作.减少或者避免 layout,paint 可以让页面不卡顿,动画效果更加流畅. 1. JavaScrip

(课程)基于Spark的机器学习经验

Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二世.然后总感觉哪里不对.目前在乐视云数据部门里从事实时计算,数据平台.搜索和推荐等多个方向.曾从事基础框架,搜索研发四年,大数据平台架构.推荐三年多,个人时间现专注于集群自动化部署,服务管理,资源自动化调度等方向. 今天会和大家分享三个主题. 不过限于时间,第三个只是会简单提及下, 等未来有机会可以更详细的分享. 如何基于Spark做机器学习(Spark-Shell其实也算的上即席查询了) 基于Spark做新词发

云计算新应用 GPU加速3D互联网步伐

本文讲的是云计算新应用 GPU加速3D互联网步伐,[IT168 专稿]回顾互联网的发展,我们不禁感叹世界变化之快.上世纪九十年代,打开古老的Mosaic浏览器,我们看到的只是满眼的文字.从2000年开始,得益于网络带宽.存储能力.CPU计算性能的发展,我们看到了令人眼花缭乱的图像和视频,听到了蔓妙的音乐.而今天,我们正在进入一个更加令人兴奋的世界:一个3D的互联网世界,或许不久,你就可以让和你一般身材的3D虚拟代理人去网上各大3D虚拟服装商店里试穿.订做衣服.正如Mental Images公司首

专访田渊栋 | Torch升级版PyTorch开源,Python为先,强GPU加速

专访Facebook研究员田渊栋和PyTorch作者Soumith 新智元 :田博士,关于PyTorch的发布,请问可以采访您几个问题嘛? 田渊栋 :哦,你要问什么?我可以把问题转给Soumith. 新智元 :请问 PyTorch 除了是基于 Python,其它架构是否与 Torch 一样? 田渊栋 :基本C/C++这边都是用的torch原来的函数,但在架构上加了 autograd 这样就不用写backward 函数,可以自动动态生成computational graph 并且自动求导,反向传递