云计算一周热文回顾:大数据成功预测美国大选

大数据成功预测美国大选

显然,“大数据”并不真正关心谁来当选下一届美国总统。不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大。本次的成功预言,展示了大数据强大的能量。

统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论)。Silver已经成为本次争议的焦点人物,在“旋风般”地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二的大选(后来模型提升到90.9%)。然而,普林斯顿大学信息技术政策研究员Zeynep Tufekci在上周迅捷的进行反击:Silver绝对不可能保证奥巴马将赢得11月6日的大选——仅仅说明有一个很高的可能性而已——他的模型中涉及到的任何结果都没有考虑到党派政治的影响。

信不信由你,Silver把所有的时间都花在建立统计模型——预测政治大选结果,虽然他不是唯一做这件事的家伙,不过他是最有名的。美国有很多院士,预测市场,业余爱好者和其他人也能做到这一点,他们所有的人使用不同的数据,使用不同的方法来评估的特定结果的权威性。除了少数例外,他们中的绝大多数也预测奥巴马能够获得胜利。

他将Yahoo!Hadoop从20个节点扩展为42000个节点

Eric Baldeschwieler骑着“大象”意味深长

Eric Baldeschwieler,今年47岁,有很深的计算机技术背景。在卡内基梅隆大学(Carnegie Mellon University)获得应用数学(计算机科学)学士学位后,Eric又在加州大学伯克利分校获得计算机科学硕士学位。作为Inktomi公司Web服务引擎的技术领导者(Inktomi是第二个比较早出现的搜索引擎,Amazon.com,eBay,HotBot,MSN,Overture,WalMart.com,LookSmart,Excite,HotBot都是他的客户,而通过这些顶级的门户网站和目标站点,Inktomi向全世界半数以上的互联网用户提供最新、最相关的搜索结果),由于Inktomi在2003年被雅虎收购,Eric也随之转战雅虎,并最终通过2年的努力,于2005年成为雅虎的Web搜索总设计师。更富传奇的是,Eric在2006年毅然投入雅虎Apache Hadoop项目的怀抱,将其从20个节点的原型系统发展为42000个节点的服务。而后,当雅虎决定全力支持Apache Hadoop项目,并于2011年7月成立新公司Hortonworks时,Eric当之无愧地成为首任CTO。作为资深技术人士,但当CTO的Eric感觉自己面临了诸多挑战。但他对Hadoop的前景非常乐观,“大家多贡献一点,Hadoop将会创造奇迹。”Eric将来到HBTC 2012,并发表关于Hadoop技术经验分享的主题演讲。

TripAdvisor:使用AWS比服务器托管成本节省50%

让我们先回顾下TripAdvisor的架构。2011年6月,TripAdvisor发布其架构。过去一年多我们的业务发展迅速,让我来总结下我们的成绩:

每月5600万访问者每天3.5亿页面访问量Hadoop集群运行着120TB数据,并快速增长中

这个夏天,我们从大学招聘了60名兼职,其中包括Luke Massa和Victor Luu,他们像我们的全职工程师一样工作,很快融入了我们。一直以来总有一个问题纠缠着我:为什么要使用云计算?Luke Massa和Victor Luu通过在AWS部署我们的服务,总结了在过去这个夏天他们在TripAdvisor发生的一切。

图:AWS帮助企业节省大量成本

在AWS上运行TripAdvisor

2012的夏天,TripAdvisor对我们的产品全部迁移到AWS进行了实验性的评估。首先,我们开始试验将www.tripadvisor.com和所有国际域名运行在AWS EC2环境,我们的工程师开始还怀有最简单的问题:放弃我们已有的硬件,迁移到AWS上真的划算吗?(AWS)能运行的完好吗?(CSDN注:停电、飓风以及其它不可知的原因,AWS今年已经出现两次大规模故障。或许,TripAdvisor考虑过在自己的服务器上运行OpenStack,这个开源平台允许企业架设自己的私有云,它兼容AWS的大部分API。)

几个月以前,我们开始试验性与云计算亲密接触,当然结果并不是非好即坏。我们在过程中学到了大量经验,不仅仅是AWS提供的价值,还包括帮助我们改造了原有托管服务器集群的架构。这一切都归功于AWS的灵活性,我们将DNS切换,流量转换到AWS,这非常实用,是非常好的学习工具!

目标

在EC2上建立网站的全部,评估实际生产环境的流量压力建立成本模型确认架构升级后我们可以减少支出,并增加扩展性在转换到AWS后,我们需要找到方法提升我们现有的架构

EC2的支出

支出包括三个主要部分:实例、EBS和网络。假定生产环境的网络流量为200GB/小时,支出为14.30美元/小时。可以预见,实例的支出占据整个支出的大部分。

实际对比

部署每个数据中心需要大约220万美元,加上每年30万美元的升级和扩展费用。固定资产支出(Capex)大约100万美元/年,假设数据中心的初始成本分摊到3年中。运营成本包括空间、电源以及带宽,这些大概30万美元/年。合计成本为130万美元/年/数据中心。我们在每个数据中心有超过200台设备,每台典型设备的成本为7000美元。

如果我们将130万美元全部花在EC2上,签订1年期合同,我们会得到下面的架构:

550个前端和后端实例64个缓存实例10个数据库实例

成本1486756.96美元。

这意味着我们将增加60%的容量(目前已有340个前端和后端实例,32个缓存实例,5个数据库实例)。

如果我们签订3年合同,将享有惊人的优惠,这个架构的成本仅为88万美元/年。如果我们想在三年内花掉390万美元,我们将得到如下的架构:

880个前端和后端实例64个缓存实例20个数据库实例

一个有趣的现象是,即便是这个架构我们只使用了1760个内核(每个服务器2个CPU内核),然而我们现在使用(CSDN注:指传统的服务器托管方式)总共3500个内核。显然,我们确信当下的架构存在一些垃圾和潜在的威胁,运行效率十分低下。

成本节省总结

保留实例的前提下,我们计算后发现,签订1年合同情况下,年化成本将节省一半。同时,我们不需要为流量高峰或系统备份预留实例,从而节省我们的总成本。每个实例均可定制,以符合实际的需求。而现在,我们只能使用每台服务器的一部分性能。运维人员-运维更加高效,因为我们知道实例会一直在那里运行。

未来你的手机将变成超级计算机

《连线》杂志的Klint Finley表示,五年后,英特尔可能会让你的手机会兼作一台超级计算机。

这是英特尔的实验单芯片云计算机项目或SCC的目标。该公司目前正在为芯片研发潜在的移动应用程序,以及使开发人员可以轻松地利用这种技术的开发工具,而不用成为超级计算机专家。

换句话说,ARM试图把手机芯片到我们的超级计算机里,英特尔做的则恰恰相反。移动硬件和数据中心硬件之间的界线正越来越模糊。这可能看上去很奇怪,但如果你具有大局观,就能发现它的意义。

Appro推出液冷超级计算机

美国高性能计算供应商Appro推出了新的Xtreme-Cool超级计算机,特点是有一个高效节能的设计,其没有使用冷冻机,而是用温水液体冷却换热器。该公司将于下周在盐湖城举办的SC12活动中展示该系统。

这个Xtreme-Cool超级计算机是由通常安装在集群中的刀片节点组成的。安装在节点上的液体冷却连接到冷却剂分布单元(CDU)通过管道与drip-free快速连接。泄漏检测和预防系统中集成在系统中作为一个额外的保护措施。并且还提供整合的远程电源以及温度监测和报告。

“Appro的新的Xtreme-Cool超级计算机目的在于正视的全球高性能计算市场,该市场在2011年达到了创纪录的103亿美元,IDC预测到2016年将超过140亿美元,” IDC HPC项目副总裁Earl Joseph表示,“Appro的新产品是为满足客户需求而设计的,如在较少或没有没有空调的数据中心中用温热液体冷却换热器技术,该技术可直接冷却与电源和温度监控软件相结合的计算处理器和内存。这有可能提高高密度、大规模的集群环境的性价比和TCO”。

使用一个温度较高的水冷却系统可以让你使用的冷水机组更少或根本不使用。

RightScale加入OpenStack 支持Rackspace开放云

RightScale(一家提供对多个云平台统一访问的公司)今天宣布正式支持OpenStack项目,并宣布将支持客户部署到Rackspace的OpenStack云。

这一举措代表了OpenStack项目的进一步发展。

RightScale公司首席执行官Michael Crandell说:“企业在OpenStack上的兴趣正在不断增加。”他表示,Rackspace的开源云与OpenStack 主干代码密切对应,最大限度减少了专有的扩展。

RightScale已经是一个集成各种各样公有云和私有云的平台,其中包括AWS、Windows Azure、Google Compute Engine、Datapipe、HP、Logicworks、SoftLayer和Tata。在私有云方面,RightScale可以用来在OpenStack、CloudStac和Eucalyptus平台管理工作负载,所有这些都是开源的。

VMware发布Cloud Foundry微型版本

云中的一切似乎变得更大或更小。VMware目前走了微型路线,发布了该公司Cloud Foundry的一个微型版本。

微型Cloud Foundry可以将它部署在单个虚拟机上。在其博客文章中,VMware说这是开发人员想要测试仍处于开发阶段的应用程序的理想选择。

云供应商似乎在不断的调整自己的产品,以扩大他们的产品组合。最简单的方法是在现有产品的基础上添加容量,或者把产品细分为更小的、独立的小块。VMware采取了后一种方式。

相比之下,亚马逊网络服务最近宣布为它的云服务推出两款新类型的虚拟机实例,两者都是高输入/输出版本,为其广受欢迎的弹性云计算(EC2)提供。当时,独立分析师Paul Burns指出,增加现有产品的功能,企业不仅可以像亚马逊这样拥有更多的产品,而且它可以让客户有更符合他们计算需求的实例类型。

VMware表示,微型Cloud Foundry将会和常规的Cloud Foundry有相同的特性和功能,唯一的限制是它将运行在单个VM上。除了今天宣布的微型版本,VMware还宣布新功能会随着微型Cloud Foundry版的发布而到来。这些功能包括支持独立的应用程序,并增加对Ruby、Java和node.js等各种编程语言的支持。

时间: 2024-09-18 18:18:45

云计算一周热文回顾:大数据成功预测美国大选的相关文章

大数据成功预测美国大选

显然,"大数据"并不真正关心谁来当选下一届美国总统.不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大.本次的成功预言,展示了大数据强大的能量. 统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论).Silver已经成为本次争议的焦点人物,在"旋风般"地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二的大选(后来模型提升到9

云计算一周热文回顾:NoSQL数据库技术特性解析之文档数据库

NoSQL数据库技术特性解析之文档数据库 现今云计算的从业人员对NoSQL一词并不感到陌生,虽然很多技术人员都长期从事关系数据库的工作,但现在他们对NoSQL技术充满期待.对于企业来说,从关系型数据库到NoSQL数据库转变绝对是个需要深思熟虑的大改变.这涉及的不仅是软件的变化,更多的是对于数据存储上观念性的变化. 大多数非关系数据库都具有快速和可伸缩的特性.通过放弃关系存储模型和架构,关系数据库便可脱离由紧密结合的架构所带来对其施加的限制.应用程序也无需再链接数据库内表中的数据. MongoDB

云计算一周热文回顾:任正非首谈接班人制度

任正非首谈接班人制度:相信华为惯性 华为总裁任正非近期撰写一篇内部文章为轮值CEO鸣锣开道,在这篇文章中,他回顾了自己从个人英雄主义到相信团结就是力量的心路历程,回顾了公司的组织机构从无到有到现在实行轮值CEO的制度的演变,谈及接班人们,他说,"相信华为的惯性,相信接班人们的智慧." 去年,曾有传闻称,任正非为了让儿子任平顺利接班,以10亿元人民币的"分手费"逼走公司董事长孙亚芳,随后华为公司发声明予以否认. 在这篇文章中任正非特别提到在2002年公司内外交困时,&

云计算一周热文回顾(4.9-4.14)

大数据从业者市场现状:薪酬持续增长 人才缺口巨大 在大数据时代,企业之间正在为了吸引并留住商业智能和信息管理的专业人才而展开战争.在InformationWeek每年公布的IT从业人员薪金调查中可以看出大数据从业人员面临巨大的缺口. 现今大数据呈现出"4V + 1C"的特点.既Variety:一般包括结构化.半结构化和非结构化等多类数据,而且它们处理和分析方式有区别:Volume:通过各种设备产生了大量的数据,PB级别是常态:Velocity:要求快速处理,存在时效性:Vitality

云计算一周热文回顾(3.19—3.24)

Google骂微软夸 Facebook开源数据中心王国 与严格保密的Google不同,Facebook不仅全新设计的服务器和数据中心,并且将其设计方案开源,这简直是对Google莫大的蔑视.每一个Google员工都需要签署一份保密协议,而这在Facebook根本不需要.就连一向保守的微软也沉不住气,公布了都柏林数据中心的部分细节.不过,据Google前员工透露,Google的数据中心十分强大.但开放的Facebook却获得了更多拥护者,包括英特尔.Dell.华硕.Rackspace都加入了Ope

云计算一周热文回顾(3.12-17)

五大主流数据库模型 无论是关系型数据库还是非关系型数据库,都是某种数据模型的实现.本文将为大家简要介绍5种常见的数据模型,让我们来追本溯源,窥探现在流行的数据库解决方案背后的神秘世界. 1. 关系模型 关系模型使用记录(由元组组成)进行存储,记录存储在表中,表由架构界定.表中的每个列都有名称和类型,表中的所有记录都要符合表的定义.SQL是专门的查询语言,提供相应的语法查找符合条件的记录,如表联接(Join).表联接可以基于表之间的关系在多表之间查询记录. 2. 键值存储 键值存储提供了基于键对值

云计算一周热文回顾

观点:互联网海量数据蕴藏巨大"金矿" 根据IDC的调查报告显示,2010年底全球数据量已达到1.2ZB.到2020年全球电子设备存储的数据将暴增30倍,达到35ZB(相当于10亿块1TB的硬盘的容量).但对于有准备的企业来说这无疑是一座信息金矿,随着数据挖掘技术的进步,有价值的信息将变得容易获取. 随着大数据时代的到来,数据存储.数据挖掘以及处理和分析大数据的相关技术比以往任何时候都更受关注.大数据正成为企业发展的基石,并渐渐改变很多行业的商业模式.使用诸如Hadoop等非传统的数据筛

云计算一周热文回顾(2.6—2.10)

文件传输协议(FTP)必将消亡 文件传输协议(FTP)在RFC 959中定义,于1985年10月发布.文件传输协议(FTP)被设计成为一个跨平台的.简单且易于实现的协议. 文件传输协议(FTP)有一个漫长的演化史,是互联网上最重要的应用之一,但时至今日,却已江河日下.本文作者从各方面列举了一些文件传输协议(FTP)为人诟病的缺点. 1.数据传输模式不合理 不考虑文件自身的内容,一味使用ASCII模式传输数据是不合理的. 2.工作方式设计不合理 文件传输协议(FTP)可以在主动模式(PORT)或被

云计算一周热文回顾:一网打尽18种主流数据库

一网打尽18种主流数据库:12种SQL+6种NoSQL 还记得两三年前仅有几家云计算平台供应商可供选择的时候,似乎市场上也没有多少云数据库.但是云蓬勃发展之后,云数据库也呈现雨后春笋之势.而哪些是真正可靠而易用的,对用户而言,并不好分析.所以,本文分析了18种数据库的可用性以及应用方向(注意,这里说的管理数据库服务,不是仍然需要用户管理和实施的数据库实例).仍有不足之处,希望听到大家更多的评论. 谷歌120美元光纤,让我100余元8M宽带情何以堪! 现在,互联网已成为我们生活中不可或缺的一部分,