文章讲的是弄啥嘞,Spark将纳入机器学习与GPU,现在所有人的注意力都集中在人工智能上,似乎VR的火热带动了人工智能的发展。最近对全球大学人工智能教育的排名中,中国暂无高校上榜。相比于国际上各大高校实验室的火热,国内高校的动作似乎有些偏慢了。就好比加州大学伯克利分校AMP实验室所开源的Hadoop MapReduce通用并行框架Spark,在开源社区的贡献下,势头只增不减。近日,据外媒报道,Spark将纳入机器学习和GPU机制。
机器学习大家都不陌生了,GPU加速其实一直是机器学习的得力辅助,CUDA就是我们众所周知的GPU加速套件。Databricks是一个基于Apache Spark的商业性云服务平台。Spark是一个开源集群计算框架,包括机器学习库、集群管理器、类Jupyter的互动笔记本、仪表板和作业预定。有了Databricks(作服务)后,Spark发展显著加快且Spark集群不断向外扩展。Databricks通过简化对GPU加速型机器学习库的访问支持Spark服务。GPU加速器和多个深度机器学习库集成,理论上可以在本地任何位置实现Apache Spark安装。但Databricks方面表示,为了避免资源争用情况给功能的实际使用带来复杂性影响,其版本目前仍处于调整阶段。
Apache Spark不是自动提供并配置GPU加速器的,它是通过建立系统来支持的,早前用户必须自己搭建。为此,Databricks主动承担起这些复杂的前期工作。
Databricks方面表示,将通过减少节点之间的资源争用数量,最大化Spark上GPU集群的性能优势。这一策略似乎与麻省理工学院的Milk看起来类似,Milk是通过加速并行处理应用程序,与内存相关的操作一律使用批处理,以保证充分利用系统的缓存资源。同样的,Databricks试图保证GPU的各项操作不会因为彼此的资源争用而中断。另一个比较节省时间的方法是添加直接访问机器学习库,这样就可以把Spark作为数据源。这其中就包括Databrick的TensorFrames,目前Spark已经与TensorFrames打通,同时实现了GPU加速。
出于对Spark的考虑,Databricks调整了众多基础设施,创造了一个免费的服务吸引那些仍然持谨慎态度的用户,包括提供成熟产品中的部分功能。InfoWorld的Martin Heller今年早些时候就曾对该服务做出评价,除了免费之外,他认为该服务很容易使用,门槛不高。
但该领域的竞争还是十分激烈的,尤其是要面对一些巨头玩家的压力,比如拥有Azure机器学习的微软,IBM以及Amazon。如果比烧钱,比免费,小公司难以与大公司竞争;比技术,小公司也不见得拥有多优秀的技术人才。因此,Databricks必须找到方法去保持和扩大服务受众,专注打磨自己的产品,尤其是要突出产品特色,避免产品同质化。这似乎不仅仅是增加几个机器学习库那么简单了,而是在此基础上确保使用的便利性,而不是增加其使用复杂度。
作者:zyy
来源:IT168
原文链接:弄啥嘞?Spark将纳入机器学习与GPU