轻松搞定TB级数据,开源GraphLab突破人类图计算“极限值”

  图大">数据处理过去一直是数据科学家的专利,随着数据应用得越来越广泛,图大数据分析成为数据分析领域必不可少的部分,人们越来越需要易于上手、使用简单的图数据分析工具。GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海量数据处理的要求。SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理TB级数据。

  社交媒体的图数据已经引起了许多公司注意,在生命健康科学、安全、金融服务等很多领域也存在类似的数据集。图数据的特征使其需要特殊工具和技术,这些工具对于一般用户来说太复杂了,在过去使用这些工具一直是数据科学家的专利。幸运的是图数据分析这个领域吸引了很多热心的企业家和开发人员。这些工具已经得到很大的改进,而且变得越来越简单。

  我们身边有很多机器学习应用于图数据分析的示例,比如:发现有影响力的用户(PageRank)和社区、欺诈检测和推荐系统(GraphLab用户中比较流行的协同过滤)。一个领域的工具开发出来后常常会被应用到其他领域,除了GraphLab,分布式分析还被应用到Giraph、GraphX、Faunus和Grappa,此外像Neo4j和Yarcdata这样的图数据库也带有一些分析功能。

  近日一家新公司的成立大大推动了开源项目GraphLab的发展,该公司由GraphLab的开发者组成,筹集资金为图数据集开发分析工具。GraphLab公司也将继续使用开源GraphLab“突破图计算的极限,努力创新”。

  GraphLab的SFrame是一种趣味十足而低调神秘的工具,首次在 Strata Santa Clara被揭开面纱。它基于磁盘,并通过二维表形式将GraphLab扩展到了表格数据。通过添加SFrame,用户可以利用GraphLab中许多处理图或表中数据的算法。更重要的是SFrame增加了GraphLab数据科学工作流的覆盖范围:它允许用户直接使用GraphLab对TB大小的数据集进行数据清洁或者创建新的功能,SFrame性能可以通过增加内核实现线性扩展。

  据有关人士透露GraphLab正在努力将它们的引擎与YARN集成到一起,不过SFrame测试版已经可以从HDFS中读取数据,还可以从本地磁盘、HDFS、S3或URL中读取数据,并保存成人类可读的.csv或更有效的本机格式。一旦SFrame被创建并保存到磁盘后,就不需要再重复处理数据了。下面用Python代码演示如何读取一个.csv文件到SFrame,以及创建一个新的数据功能并把它保存在S3磁盘上:

  GraphLab Create是为那些想要开发推荐系统之类数据产品的软件工程师和数据科学家设计的,即使那些对机器学习比较陌生的人也能很快上手,还可以帮助经验丰富的开发者节省大量时间。

  通过GraphLab Create可以开发数据产品或者用机器学习和图分析方法进行数据分析,可以连接到你的数据,通过迭代层次模型实现数据转换,并轻松地分析模型和系统性能,还可以在你的机器上运行应用或在AWS中运行实例。

  而SFrame就是GraphLab Create的一部分,三月份将发布Python包,以简化可扩展分析产品的创建(例如推荐系统和图型分析系统)。利用GraphLab Create,用户将能够从Python或Ipython内部生成和维护分析管道,并将它们部署在单个服务器上或整个群集(包括本地和云)。

  过去GraphLab被认为可扩展、速度快,但是使用困难而且应用范围有限。但过去的几个月里,GraphLab公司已解决两个首要问题,由此开发的工具应该可以大大增加GraphLab对于数据科学家的吸引力。与IPython的集成为PyData社区开启了一个GraphLab快速、可扩展分析模块时代(通过Python的六个线程生成端到端推荐)。SFrame和GraphLab Create扩展了数据科学工作流,使其包括数据转换(data wrangling)和数据吸收(data ingestion)。

  在利用图工具分析之前,需要将数据转化成图。GraphBuilder是英特尔的一个开源项目,它使用Hadoop MapReduce从大型数据集中生成图。另一个选择是GraphX与Spark的结合产物,是由一个叫做Trifacta的新公司开发的多用途数据辨析工具。

  由于SFrames类似于Pandas(PyData)和R数据架构,数据科学家可以非常方便快速地使用它们,提高工作效率。要问SFrames为什么能吸引Strata与会者,我觉得是因为它能够扩展到更大的数据集: SFrame允许用户处理大型表格式数据集而不局限于内存大小。

时间: 2024-11-05 17:28:39

轻松搞定TB级数据,开源GraphLab突破人类图计算“极限值”的相关文章

开源GraphLab突破人类图计算“极限值”

图数据处理过去一直是数据科学家的专利,随着数据应用得越来越广泛,图数据分析成为数据分析领域必不可少的部分,人们越来越需要易于上手.使用简单的图数据分析工具.GraphLab是个很受大家欢迎的开源项目,GraphLab开发者们不断追求图计算的创新和发展,使其能迎合海量数据处理的要求.SFrame的亮相显得低调而神秘,不过其功能不可小觑,它将GraphLab扩展到了表格,使其可以轻松管理TB级数据. 社交媒体的图数据已经引起了许多公司注意,在生命健康科学.安全.金融服务等很多领域也存在类似的数据集.

轻松搞定数据访问层[续]

访问|数据 数据库表 Tbl_Teacher 数据字段名称 类型 说明 teaID Int 自动编号 teaCode Char(20) 教师员工号 teaName Nchar(10) ? teaGender Bit ? teaNation Nchar(6) ? teaAge TinyInt ? Tbl_Student 数据字段名称 类型 说明 stuID Int 自动编号 stuCode Char(20) 学生证号 stuTeacherCode Char(20) 班主任的员工号 stuName

轻松搞定数据访问层

访问|数据 下面实现的方法,可以把你从SQL的Add,Delete,Update,Select的重复劳动解脱出来 1.实体类2.访问类 现在以下表为例tblPerson(perID,perName,perGender,perOld,perNation) 实体类Person---------IDNameGenderOldNation 访问基类DataOper------------Shared DeleteShared AddShared UpdateShared Select 访问类Person

SQL Server数据汇总五招轻松搞定_MsSql

本文我们将讨论如何使用GROUPBY子句来汇总数据. 使用单独列分组 GROUP BY子句通过设置分组条件来汇总数据,在第一个例子中,我在数据库AdventureWork2012中的表 Sales.SalesOrderDetail.中的一列上进行数据分组操作.这个例子以及其他例子都使用数据库AdventureWorks2012,如果你想使用它运行我的代码,你可以点击下载. 下面是第一个示例的源码,在CarrierTrackingNumber列上使用group by子句进行数据分组操作 USE A

三招破局,轻松搞定大型直播晚会

转眼"云享团"已经来到第11期了,和大家分享.共享云计算的干货和心得,收货满满.也希望云享团能一直给大家带来新鲜的养分. 本期云享团有点不一样哦:本期的话题是一个大型晚会直播的最佳实践案例分享,分享人也有点不一样- 三招破局,轻松搞定大型直播晚会            不久前,阿里云接到一封"助战书",客户某大型卫视(以下用"V卫视"代称)正在准备2016至2017跨年大型晚会的直播方案,邀阿里云直播护航团队共同完成2016的完美ending.

手机储存空间不足?ROM助手轻松搞定

在使用安卓智能手机时,经常会出现"存储空间不足"的提示,相信更多的人一定尝试过删除无用照片或视频,卸载APP等来缓解此类情况,但不久又会收到同样的提示,实在让人着急,甚至有些手机里的顽固软件根本无法删除,其实面对储存空间不足的状况,我们只需要借助ROM助手(及相关编辑制作工具)一键删除即可轻松搞定!我们应该知道,手机存储空间并不是单指内存卡,而是指ROM空间的大小,一般即便ROM空间很大,但真正可以用来 预装软件和数据的空间依然非常少,无论是国产还是国外产的安卓手机,大多是16G,32

投资界APP:轻松搞定王思聪,欢喜娶回韩小野!

想让王思聪当老公?如果有一天他问你:"最近有几千万的零钱,投什么项目比较好?"你答不上来怎么办?你以为嫁给有钱人那么容易?没点投行情报傍身怎么行?! 想娶小野做老婆?如果有一天韩寒问你:"有几部电影需要投资,哪家投资方比较靠谱?"你不知道怎么办?你以为娶个白富美能那么顺利?! 熟知创投行情才能轻松搞定岳父! 针对以上人群,投资界推出了一款投行情报利器!让你轻松搞定王思聪,欢喜娶回韩小野! 利器功能如下: 及时了解行业动态,让你成为朋友圈的"http://w

五步轻松搞定网站数据分析收集工作

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站及产品运营不能凭空而谈,纸上谈兵,要用实实在在的数据说话.如果我们手里有一份针对我们需求的非常完美的数据的话,那对于我们在进行推广的时候,就会有目标,有针对性地去进行,节省了大量的工作量,也能让我们很好地了解竞争对手的情况,从而来达到一个知己知彼,掌控全局的目的.万丈高楼平地起,再完美的数据分析也是建立在数据的基础上的,只有在足够多的数据

几行代码轻松搞定网页的简繁转换

简繁转换|网页 对网页进行简繁字体转换的方法一般有两种:一是使用<简繁通>这样的专业软件,另外一种是制作两套版本的网页.显然,这两种方法都较为麻烦,而且专业软件一般不能用于免费的空间.笔者在这里给大家提供一个非常简单的方法,只须在页面上添加几行代码就可以轻松搞定网页的简繁转换了.首先在http://www.knowsky.com/download/transform.js处下载用于简繁转换的js文件transform.js,复制到网站目录下,然后使用网页制作工具打开需要进行简繁转换的网页,