且看Mac Mini如何超越1636节点的Hadoop

小小的Mac Mini计算性能可以超过由1636个节点组成的Hadoop集群,即使是在某些用例下听起来也更像天方夜谭,然而近日GraphChi却声称做到了这一点。长话短说,在看这个壮举之前,我们有必要先了解一下GraphLab的GraphChi。

GraphChi专注小电脑的分布式框架

GraphChi由卡耐基梅隆大学计算机科学家设计,可以在个人计算机上高效进行大规模计算的框架,多用于社交媒体或网络搜索分析类任务,比如推荐引擎。我们都知道推荐引擎专注的是图谱计算(graph computation),分析社交媒体用户之间的关系;但是这类计算通常需要海量的内存,通常出现在由大量计算机组成的集群上。

区别于将图谱储存在内存中,GraphChi利用了个人计算机上的海量硬盘,将图谱储存在硬盘上。通过实验室主任Carlos Guestrin了解到,为了弥补硬盘与内存之间的速度差距,他们设计了更快速的,减少随机读写的硬盘访问方法。同时,GraphChi还能处理“流图 谱”(streaming graphs),流图谱能通过显示关系随时间的变化建立起精确的大型网络模型。

Mac Mini与1636节点Hadoop的战争

对同一个具有15亿边缘的Twitter图谱(2010年以后)进行处理(三角形计数),GraphChi通过1个小时完成了1636个Hadoop节点7个小时的工作。近日,通过Rangespan的数据科学家Christian Prokopp,我们了解了这项超越得以实现的原理——对算法的极致优化,以及单台机器对集群设置的优势。

运行环境

GraphChi的首个优势在于可以简化许多假设以及后续的算法,不需要进行分布式处理。有了这个优势,并理解单机器的性能进行总体上的评估(优势和劣势),整个处理过程将非常容易设计。单机器通常具备两个特征:1,大的图谱问题不会被塞进RAM(Random Access Memory);2,拥有很大的磁盘,可以处理所有数据。

传统的磁盘通常不会有随机读取优化,他们只针对连续性读取。新时代计算机可能都会具备更快随机读写的SSD,虽然它们还是会比RAM慢许多。因此,任何在单商用机器磁盘上运行的算法仍然需要尽可能避免随机访问数据。

分而治之

卡耐基梅隆大学的博士生Aapo Kyrola使用这个原理来改善GraphLab,一个分布式图谱计算框架。他的想法是将图谱划分成不同的分片,每一个都可以通过这台机器的内存处理。随 后这些分片可以并行的在内存中处理,其它分片需要做的更新则通过随后的连续写入完成。这样将最小化磁盘上的随机操作,合理的使用机器的内存做一些并行操 作。

Aapo发明了 PSW(Parallel Sliding Window)算法来解决关键的性能提升问题,针对磁盘的连续读写。PSW通过source shards对1个分片中所有的顶点进行排序,这意味着每个分片本质上都被分割成由顶点组成的块,同时这些顶点又会与其它分片关联。

举个例子,在interval 1中(上图)shard 1正在内存中进行处理,它是顶点到目的顶点边长一个子集。这些目标顶点是余下分片中排序源值的连续块,因此可以连续的读取。所有的更新都会被计算,并在内存中为shard 1进行存储,随后则被连续的写入其它分片,修改会在读取之前进行。最终,内存中更新后的版本会被连续的写入磁盘。在interval 2中,shard 2被加载;当然,同样的方法会被应用于其它分片。

这个方法充分利用了新型商用计算机的架构特征,正如原始论文中的一些特性说明。比如,对不同磁盘中数据的拆分;同时,使用SSD代 替传统磁盘对性能将不再有双倍的提升,因为算法已经大幅度的提升高永久存储性能。即使是增加分片的数量,对CraphChi的吞吐量影响也不大,这样将保 证更大图的可靠性能。值得注意的是,另一个算法高效性证明是——将计算彻底的移到内存,对比SSD计算时间只有1.1到2.5(因素)的提升。

GraphChi的性能对比( 源出处)

GraphChi公布了模式转变后的性能获益,其中包括与类似Hadoop、Spark等通用解决方案,升值还包括了高优 化的图计算框架GraphLab、PowerGraph。后者属于高优化的分布式并行解决方案,同样做Twitter三角计数的处理只需1.5分钟。然 而,它使用了64个节点,每个8核心,总计512个核心。粗略的算,性能提升了40倍,但是却耗费了256倍的计算资源(核心)。

单机模式处理大数据的一些开源利器

1. LibFM: 项目主页

2. Svdfeature: 项目主页

3. Libsvm和Liblinear: libsvm项目主页、 liblinear项目主页、 初次使用必读、 libsvm的开发心得by林智仁

4. rt-rank: 项目主页

5. Mahout: 项目主页

6. MyMediaLite: 项目主页

7. GraphLab 和 GraphChi: GraphLab项目主页、 GraphChi项目主页、 GraphChi的下载地址、 GraphChi介绍、 CF for GraphChi

时间: 2024-08-02 04:59:28

且看Mac Mini如何超越1636节点的Hadoop的相关文章

算法为王:且看Mac Mini如何超越1636节点的Hadoop

小小的Mac Mini计算性能可以超过由1636个节点组成的http://www.aliyun.com/zixun/aggregation/14119.html">Hadoop集群,即使是在某些用例下听起来也更像天方夜谭,然而近日GraphChi却声称做到了这一点.长话短说,在看这个壮举之前,我们有必要先了解一下GraphLab的GraphChi. GraphChi专注小电脑的分布式框架 GraphChi由卡耐基梅隆大学计算机科学家设计,可以在个人计算机上高效进行大规模计算的框架,多用于社

记一次Mac mini折腾过程(鼠键共享,更换SSD)

(本文纯属随意记录,也懒得分开来写) 从公司网管那捣鼓来一个"遗弃" Mac mini,说其它人觉得用起来太卡,正好我的工作PC( CPU 4×i3,MEM 8G, HDD 500G)软件开多了也觉得有些卡,特别是我使用浏览器的习惯不太好,每次搜索统一结果都要打开好多标签页对比,文章性质的觉得有用想将来记录下来就没关闭页面,一两个星期下来只Chrome使用的内存就达到4G多.不用也浪费,于是就拿Mac mini分摊一下压力. 刚拿到手时心想得有多不堪配置才使得的Mac mini卡到嫌弃

苹果全新Mac mini初步拆解

苹果在昨天的发布会上推出了全新的 Mac mini,国外科技网站 Mac Mini Vault 第一时间就为我们送上了全新 Mac mini 的拆解,同时还公布了全新 Mac mini 的首份 Geekbench 测试得分. Mac Mini Vault 的拆解并不是很详细,着重为我们展示了全新 Mac mini 的包装和内部结构.全新 Mac mini 整体的包装大小不变,但是规格已经被升级,内包装结构也已经被优化. 与早前的产品相比,全新 Mac mini 的内部结构只有轻微的差异.最值得注

新Mac mini跑分怎么样

  在本次新品发布会上,苹果终于对其多年未更新的迷你主机Mac mini进行了一次升级.虽然是发布会上的配角,不过凭借着性能的升级和售价的降低,新款Mac mini受到的关注度并不低.而根据国外媒体的报道,新款Mac mini的GeekBench跑分结果目前也已出炉.来自Primate Labs的John Poole表示,与两年前配备四核Ivy Bridge处理器的老款Mac mini相比,仅配备双核Haswell处理器的新款Mac mini在多核性能上却有所下降. 至于苹果此次为何取消四核i7

苹果Mac mini更换SSD图文教程

  去年 10 月份,苹果更新了最新款 Mac mini,对于部分追求微型桌面系统设备的消费者来说,新款 Mac mini 仍是一款非常具有吸引力的设备,不过其配备的5400转机械硬盘遭到不少用户吐槽,在SSD固态硬盘为王的今天,机械硬盘的劣势制约了Mac mini的用户体验,不过不用着急.今天,小编就给各位带来了网友提供的 2014 款 Mac mini 手动拆机更换 SSD 固态硬盘的详细教程,一起来看看吧. 准备工作: - 梅花 T6 螺丝刀(拆机) - 梅花 T9 螺丝刀(拆固定硬盘的螺

Mac mini M9686CH/A能否用来做开发

问题描述 如题,本人想入手一台mini用来做开发,不知Mac mini M9686CH/A拿来开发怎么样,求各位大侠给点意见,谢谢.... 问题补充:可否详细一点? 解决方案 以前用赛扬300都可以写java,你说呢.当然,可不可以和好不好是两回事

新版苹果Mac Mini系列加入服务器功能版本

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   日前,苹果正式在国内发布了新版Mac Mini电脑,超小巧的身材依旧是该机的特色,新机型加入了服务器功能,还加入了支持高清功能,为机型添色不少色彩,外观设计加入金属元素. 既10月20日苹果全球宣布发布全新Mac系列电脑之后,苹果于昨日(11月10日)在中国区发布相关Mac电脑产品,其中包括全新MacBook().iMac()和Mac Mini.本文着重阐述新款

Mac Mini 重做系统 - 两年前网络笔记重用

Mac Mini 重做系统 - 两年前网络笔记重用 太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致"创作公用协议 转载请保留此句:太阳火神的美丽人生 -  本博客专注于 敏捷开发及移动和物联设备研究:iOS.Android.Html5.Arduino.pcDuino,否则,出自本博客的文章拒绝转载或再转载,谢谢合作. 1.清空mini的所有设置,无论接了显示器亮不亮   接有线键盘,按住 win+alt+r+p

苹果发布超高清屏一体机电脑Retina iMac与Mac mini

[TechWeb报道]就在刚刚结束的苹果新品发布会上,苹果再一次改变了一体机电脑的屏幕分辨率极限,推出了全新的27寸Retina版iMac,新款iMac厚度只有5mm,整体设计语言与前一代产品类似,同属于刀锋边框设计,最大的提升在于那块逆天的5K极致超清屏,分辨率达到了5120*2880的惊人程度,也意味着它将会是当今全球分辨率最高的一体机电脑.除开屏幕分辨率外,硬件配置也得到了提升,具备i5与i7双处理器版本,i5版的处理器主频为3.5Ghz,i7版本则为4.0Ghz,显卡方面倒是采用了ATI