开源GraphLab突破人类图计算“极限值”

图数据处理过去一直是数据科学家的专利,随着数据应用得越来越广泛,图数据分析成为数据分析领域必不可少的部分,人们越来越需要易于上手、使用简单的图数据分析工具。GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海量数据处理的要求。SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理TB级数据。

社交媒体的图数据已经引起了许多公司注意,在生命健康科学、安全、金融服务等很多领域也存在类似的数据集。图数据的特征使其需要特殊工具和技术,这些工具对于一般用户来说太复杂了,在过去使用这些工具一直是数据科学家的专利。幸运的是图数据分析这个领域吸引了很多热心的企业家和开发人员。这些工具已经得到很大的改进,而且变得越来越简单。

我们身边有很多机器学习应用于图数据分析的示例,比如:发现有影响力的用户(PageRank)和社区、欺诈检测和推荐系统(GraphLab用户中比较流行的协同过滤)。一个领域的工具开发出来后常常会被应用到其他领域,除了GraphLab,分布式分析还被应用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata这样的图数据库也带有一些分析功能。

近日一家新公司的成立大大推动了开源项目GraphLab的发展,该公司由GraphLab的开发者组成,筹集资金为图数据集开发分析工具。GraphLab公司也将继续使用开源GraphLab“突破图计算的极限,努力创新”。

GraphLab的SFrame是一种趣味十足而低调神秘的工具,首次在 Strata Santa Clara被揭开面纱。它基于磁盘,并通过二维表形式将GraphLab扩展到了表格数据。通过添加SFrame,用户可以利用GraphLab中许多处理图或表中数据的算法。更重要的是SFrame增加了GraphLab数据科学工作流的覆盖范围:它允许用户直接使用GraphLab对TB大小的数据集进行数据清洁或者创建新的功能,SFrame性能可以通过增加内核实现线性扩展。

据有关人士透露GraphLab正在努力将它们的引擎与YARN集成到一起,不过SFrame测试版已经可以从HDFS中读取数据,还可以从本地磁盘、HDFS、S3或URL中读取数据,并保存成人类可读的.csv或更有效的本机格式。一旦SFrame被创建并保存到磁盘后,就不需要再重复处理数据了。下面用Python代码演示如何读取一个.csv文件到SFrame,以及创建一个新的数据功能并把它保存在S3磁盘上:

来源:GraphLab公司

GraphLab Create是为那些想要开发推荐系统之类数据产品的软件工程师和数据科学家设计的,即使那些对机器学习比较陌生的人也能很快上手,还可以帮助经验丰富的开发者节省大量时间。

通过GraphLab Create可以开发数据产品或者用机器学习和图分析方法进行数据分析,可以连接到你的数据,通过迭代层次模型实现数据转换,并轻松地分析模型和系统性能,还可以在你的机器上运行应用或在AWS中运行实例。

而SFrame就是GraphLab Create的一部分,三月份将发布Python包,以简化可扩展分析产品的创建(例如推荐系统和图型分析系统)。利用GraphLab Create,用户将能够从Python或Ipython内部生成和维护分析管道,并将它们部署在单个服务器上或整个群集(包括本地和云)。

过去GraphLab被认为可扩展、速度快,但是使用困难而且应用范围有限。但过去的几个月里,GraphLab公司已解决两个首要问题,由此开发的工具应该可以大大增加GraphLab对于数据科学家的吸引力。与IPython的集成为PyData社区开启了一个GraphLab快速、可扩展分析模块时代(通过Python的六个线程生成端到端推荐)。SFrame和GraphLab Create扩展了数据科学工作流,使其包括数据转换(data wrangling)和数据吸收(data ingestion)。

在利用图工具分析之前,需要将数据转化成图。GraphBuilder是英特尔的一个开源项目,它使用Hadoop MapReduce从大型数据集中生成图。另一个选择是GraphX与Spark的结合产物,是由一个叫做Trifacta的新公司开发的多用途数据辨析工具。

由于SFrames类似于Pandas(PyData)和R数据架构,数据科学家可以非常方便快速地使用它们,提高工作效率。要问SFrames为什么能吸引Strata与会者,我觉得是因为它能够扩展到更大的数据集: SFrame允许用户处理大型表格式数据集而不局限于内存大小。

时间: 2024-08-31 15:50:03

开源GraphLab突破人类图计算“极限值”的相关文章

轻松搞定TB级数据,开源GraphLab突破人类图计算“极限值”

图大http://www.aliyun.com/zixun/aggregation/14345.html">数据处理过去一直是数据科学家的专利,随着数据应用得越来越广泛,图大数据分析成为数据分析领域必不可少的部分,人们越来越需要易于上手.使用简单的图数据分析工具.GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海量数据处理的要求.SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理

如何利用“图计算”实现大规模实时预测分析

一.何为"图计算" 相比起"Hadoop.Spark"这种流行的大数据处理平台,说起"图计算",可能许多人还比较陌生.甚至有人会误把它当成专门进行"图像"处理的技术. 首先我们互联网上通常的定义来说明一下图计算: "图计算"是以"图论"为基础的对现实世界的一种"图"结构的抽象表达,以及在这种数据结构上的计算模式.通常,在图计算中,基本的数据结构表达就是: G = (V

【谢源评体系结构顶会 MICRO 2016】神经网络加速器仍是热点,但图计算加速器夺最佳论文(下载)

MICRO(The 49th Annual IEEE/ACM International Symposium on Microarchitecture)是计算机体系结构领域的顶级会议,重点关注处理器体系结构的设计等内容.自 1968 年创办以来,迄今已经举办了 49 届,今年的 MICRO 于 10 月 15 日至 19 日在台北召开. 历史上,MICRO 长期被美国顶尖研究机构所占领,例如开会地点,仅有 10 次在美国之外的城市召开,本次是 MICRO 第二次在亚洲召开(第一次是 1999 年

基于MaxCompute的图计算实践分享-常见问题解决及优化指南

免费开通大数据服务:https://www.aliyun.com/product/odps 常见问题FAQ Q:Graph 能支持多少节点的进行计算? A:默认最多1000个节点,通过配置odps.graph.worker.num,可以使用多达3000个节点   Q:Graph 单个节点支持多少内存? A:默认内存范围为[2048, 32768] 单位为M,通过配置odps.graph.worker.memory 设置所需内存,如果单个节点需要设置超过32768M的内存,请找ODPS 管理员修改

基于MaxCompute的图计算实践分享-图加载过程

免费开通大数据服务:https://www.aliyun.com/product/odps 一.前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口.MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在: 计算,遍历内存中的点,经过不断的迭代,直至达到迭代终止: Graph 模型有点(vertex)和边(edge)组成,以邻接表的

基于MaxCompute的图计算实践分享-解析图加载过程

免费开通大数据服务:https://www.aliyun.com/product/odps 一.前言 MaxCompute Graph 是基于飞天平台实现的面向迭代的图处理框架,为用户提供了类似于 Pregel 的编程接口.MaxCompute Graph(以下简称 Graph )作业包含图加载和计算两个阶段: 加载,将存储在表中的数据载入到内存中,以点和边的形式存在: 计算,遍历内存中的点,经过不断的迭代,直至达到迭代终止: Graph 模型有点(vertex)和边(edge)组成,以邻接表的

基于MaxCompute的图计算实践分享-Aggregator机制介绍

更多精彩内容参见大数据频道https://yq.aliyun.com/big-data,此外,通过Maxcompute及其配套产品,大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. Aggregator是MaxCompute-GRAPH作业中常用的feature之一,特别是解决机器学习问题时.MaxCompute-GRAPH中Aggregator用于汇总并处理全局信息.本文将详细介绍的Aggregator的执行机制.相关API,并以Kmeans

基于MaxCompute的图计算实践分享-Resolver简介

更多精彩内容参见大数据频道https://yq.aliyun.com/big-data,此外,通过Maxcompute及其配套产品,大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps. Resolver简介 在学习使用MaxCompute-Graph计算模型时,resolver是一个不容易理解的概念.在MaxCompute帮助文档 https://help.aliyun.com/document_detail/27903.html?spm=5176

以图搜图更快准!浪潮GPU加速智能搜图计算

在未来的某一天,当你突然想知道这个世界上有多少人跟你长的相似的时候,你可以在搜索框中上传一张自己的照片,剩下的一切都可以交给智能化的图片搜索引擎来完成,它能根据图片的内容特征自动识别相似的图片.这种"以图搜图"的情景说起来容易,但实现起来,却是一个困扰了谷歌.百度等各大搜索引擎巨头们许久的技术难题. 要知道,计算机本身并不能识别图像或文字,唯有将其转化为数字,计算机才能识别和处理.传统的图像检索技术是以文本检索技术为核心构建的,互联网上的图片被人为的打上各种各样的标签,如一张海上日出的