Google数据中心的秘密

  

  Google提供全球大量的服务,几乎已经快横跨整个信息科技的服务,但是Google数据中心的内部运作一直都是秘而不宣,许多人可能都碰过Google的服务出状况,但是这些状况总能在可容忍的范围内解决,你可能发现你的Gmail的容量一直在改变,是什么架构让空间像捏橡皮糖一样越捏越大?前阵子Google的朋友Jeff Dean聊天中稍微揭开了公司基础设施的神秘面纱。

  Google的神秘面纱包括了: (1)软件 (2)硬件 (3)丛集平行处理机置

  Google软件的三个核心要素:GFS(Google档案系统)、BigTable和MapReduce算法。而硬件却是一般的服务器、处理器、硬盘、内存等等。另一方面服务器的丛集能在半秒之内响应700至1,000台服务器的搜寻请求。

  根据Google的说法,GFS是"a scalable distributed file system for large distributed data-intensive applications. It provides fault tolerance while running on inexpensive commodity hardware, and it delivers high aggregate performance to a large number of clients". 就是这个GFS的分布式档案系统,让Google服务可以随时长出空间或是切去毁损的部分,而管理这个GFS的机置就是BigTable。目前有超过200个丛集在执行GFS,其中许多都包含数千台主机。

  GFS把一块储存的数据(通常是64MB),至少放在三台称为chunkserver的主机内。

  如果chunkserver发生故障,Master Server(主服务器)便负责把数据备份到一个新的地方。至少在储存层级,主机故障完全由GFS系统处理。

  Google到底拥有多少台服务器?据Dean表示,每个机柜存放40台服务器。而根据某项估计,Google目前在全球有36个资料中心,以每个中心有150个机柜计算,Google的服务器至少超过20万台,并且每天都在增加中...下图就是Google最早期的server rack,当然目前的硬件比这个肯定更惊人了。

  

  Google之所以成为Google,部分原因是他们推翻了计算机界的传统作法。当所有的超大型数据中心都使用主流服务器和软件,Google的数据中心绝大部分是靠本身的技术构建而成。Google把命运操纵在自己手中,共同创办人Larry Page鼓励员工"别太相信有什么不可能的事情"。

  要维持如此大规模的运作,也许可以说全世界是卯起来操Google的架构,Google必须对每一台机器抱有一种随时可牺牲的态度。服务器制造商喜欢主打他们的高阶主机承受故障或当机的能力,但Google宁愿把钱投资在容错软件上。他们认为拥有两倍数量但较不可靠的硬件,胜过一半数量但较可靠的硬件。你必须在软件的层级提供可靠度,如果你有1万台主机在运作,每天一定会有一些东西挂掉。这个跟我们一般的认知确实有蛮大的差异,我们通常都希望有数量虽少,但功能稳定的机器,而不愿意有一大箩筐两光的机器。

  每个新丛集上线的第一年,通常会发生1,000次个别主机的故障,数千次硬盘故障...

  一次电力输送问题,导致500至1,000台主机失效约6小时...

  20次机柜损坏,每次造成40至80台主机下线...

  5次机柜摇晃,导致半数的网络封包在传送过程中遗失...

  整个丛集至少一次重新上线,在两天之内的任何时间,影响5%的主机...

  整个丛集还有一半的机率会过热,在5分钟之内让几乎所有服务器当机,并且花上1到2天的时间恢复...

  虽然Google用一般硬件组件来组装其服务器,但却不用传统的封装,他们要求Intel提供特制的主机板。Google目前在每40台服务器的机柜外,包覆一层外壳,而不是每台服务器有个别的外壳。

  Google在2004年开始设计的BigTable,用BigTable为所有数据提供若干结构,目前用在超过70个Google计划,包括Google Maps、Google Earth、Blogger、Google Print、Orkut和核心搜寻索引。最大的BigTable实用范例管理横跨数千台主机、约6 PT(petabytes)的数据。

  Google在2003写出第一版的MapReduce,让该公司有办法实际发挥那些资料的用处。举例来说,MapReduce能找出某个特定字汇在Google的搜寻索引中出现的次数、列出所有特定字汇出现的网页,和连结到某个特定网站的所有网站。

  利用MapReduce,Google能用相对迅速的时间,建立一个包含"digital"、"network"和"society"三个字的所有网页索引。"Dean说:「你必须能够依序地横跨数千台主机作业,才能在一个合理的时间内完成这项工作。」

  MapReduce软件在Google内部的应用日渐增加,2004年8月,该软件执行2.9万项工作,到2007年9月,已经暴增到220万项。在这段期间,完成一项工作的平均时间也从634秒降至395秒,而MapReduce的工作产出则从193 terabytes上升到约1.4万terabytes。Dean说,Google在任何一天都要执行约10万项MapReduce工作,每一项工作占用400台服务器,且需要5到10分钟完成。

  MapReduce就像GFS,是特别设计用来回避服务器问题的。Dean表示:「当某台主机故障,主服务器知道那台机器正在执行什么工作,将命令其它主机接手那项map工作。你可能影响到100个map工作,但会有100台主机接手那些工作。」

  MapReduce的可靠度一度遭到严厉的试炼,当时一个1,800台服务器的丛集正进行维护作业,工作人员一次拔下80台主机的插头,同时另外1,720台主机必须接下停顿的工作。Dean说:「速度变得有点慢,但工作全部完成。」而在一次2004年的简报中,一个1,800台丛集的系统,承受了1,600台服务器同时故障。

  所以,Google数据中心的运作似乎如鱼得水,一切顺利。但该公司还不满足,列出了一长串待改进的事项。大多数公司都试图找出如何平顺地将工作在服务器之间转移,但Google已经超越了那项挑战,他们要能够自由、平顺,且自动地,将工作在各个资料中心间转移。

  Dean说:「我们下一代的基础设施要是一个能够横跨大区块主机转移,而非单一机器的系统。」目前,某些大型的档案系统具有不同的名称,如GFS/Oregon和GFS/Atlanta,但他们都是彼此的拷贝。他表示:「我们要一个单一的名称集。」

  Google种种独创的系统替他们开创了天下,也建立了其它竞争者很难跨过的门坎,但是随着越来越复杂的环境,Google自己需要解决的问题,肯定挑战会越来越大。

  转载请注明:

  EHSY西域-SEM Jimmy's Blog  http://www.sem-jimmy.cn

时间: 2024-11-01 19:07:06

Google数据中心的秘密的相关文章

加强云服务:解锁Google数据中心的秘密

最近,在旧金山召开的Google Cloud Next大会上,这家互联网搜索引擎巨头展示了其如何保护.运营其日益增长的云数据中心,并对这些数据中心进行压力测试. 鉴于谷歌这家超大规模的云计算服务巨头的数据中心所需要支持的庞大用户群和数量众多的服务,推动了许多提供商试图破解谷歌公司如何在全球范围内连接起其所运行的海量基础设施的设计规则手册. 他们倾向于建立多个庞大的园区式服务器场,而不是构建单一的独立设施来备份到另一处地理位置的数据中心,进而也就不需要任何单点故障来防范停机. 超大规模的运营商们通

七年,Google数据中心从保守走向开放

13日的Phonix 7 X 24小时交流会上,Google数据中心运营部总监分享了搜索巨人在这7年内数据中心的战略演变.从他的讲话中了解到一个瞠目结舌的变化,也是该公司的一个先进思想:数据中心不应该是一个保存服务器的地方,它本该就是台计算机! Google数据中心副总监Joe Kava,以数据中心历史上的7年开始了他的讲话.首先,看一下时间轴: 2005:Google开始在数据中心中使用集装箱将IT硬件集成到数据中心空间中. 2006:Google建立了自己特色的数据中心,将硬件从集装箱移植进

Google数据中心耗电惊人

Google数据中心耗电惊人 当Google在俄勒冈州(Oregon)的数据中心满载运行时,消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有的家庭用电量加起来一样多. Dalles是美国俄勒冈州北部哥伦比亚河( Columbia river)岸上的一个城市,Google在Dalles的边上拥有的30英亩土地,他们在这里建立了几乎是世界上最大,性能最好的数据中心.四个装备有巨大空调设施的仓库内,放置着数万台Internet服务器,这些服务器每天处理着数十亿条Google网站传递给世界各

一周热点:Google数据中心帝国的十条“黄金战略”

一周热点:Google数据中心帝国的十条"黄金战略" 发表于2013-03-15 15:52| 次阅读| 来源CSDN| 0 条评论| 作者CSDN 数据中心GoogleHadoop机器学习RubyGo开源云计算云热点服务器 摘要:本周内容:Google数据中心帝国发展所倚赖的十条"黄金法则"最受关注:Iron.io使用Go代替Ruby重写其服务,并带来15倍缩减服务器的效果,最让人费解:图解Hadoop生态圈带来最直观的视觉感受:还有那GitHub推进的开源时代以

Google 数据中心探秘

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 不久前,Google 数据中心还是戒备森严的禁地,因为 Google 的很多技术创新被视为公司的竞争优势,今年4月1日,根据其2006年作出的让自己更加透明的许诺,Google 公布了他们位于 Mountain View, Calif 总部的数据中心的一些细节.并在 YouTube 发布了一系列视频让众人一睹为快. Google 工程师 Ji

Google数据中心PUE再创新高

近日,Google宣称他们位于在加州的数据中心PUE(能源利用效率)上再创新高.若遵循以下指导方针,你同样可以实现更高效的能源利用,一名Google官员这样说道. Chris Malone是Google的热能技术建筑师,他详细阐述了这个互联网搜索巨人是如何在它的10座数据中心里达到1.16的PUE值. PUE指标由Green Grid(绿色网格)设计,其计算方式为:PUE = 数据中心总设备能耗/IT设备能耗. 数据中心PUE的目标是让计算结果尽可能的接近1.0.根据Uptime Institu

谷歌公司庞大数据中心的秘密制冷技术

谷歌公司透露了他们巨大的数据中心的一些秘密技术,同时他们的工程师也正在为研究新的创新技术而努力. 例如:谷歌公司正在寻求为开发一个先进的数据中心制冷系统专利而努力,这个制冷系统可以在服务器内提供精确的制冷,自动调整温度,极大的减少了运行冷却器所需的能量. 这个冷却系统的设计能够帮助谷歌公司削减服务器的电能,可以帮助谷歌把重点放在数据中心,打败微软和其他竞争对手,重塑谷歌在数据中心云存储的地位.谷歌定制了数据中心的很多操作,来为它的网上业务服务.同时它还创建了它自己的服务器和网络交换机,现在似乎也

看废弃造纸厂如何变身未来数据中心

Joe Kava 最初曾在芬兰南部海岸上,负责将机器人相机送入延伸到波罗的海的地下管道中.这和他最初加入 Google 为其http://www.aliyun.com/zixun/aggregation/10671.html">运营数据中心的初衷大相径庭.在 2009 年的二月份,Google 耗资 5200 万美元购买了一座位于芬兰 Hamina (哈米纳)的废弃的造纸厂,他们认为这座拥有56年历史的建筑是建设其众多服务于大量网络服务的大规模计算设施之一的理想场所. 这一计划的一部分曾经

Google将机器学习、人工智能应用到数据中心

数据中心的管理日益复杂,时刻都有庞大而复杂的数据信息需要处理,各种各样的因素随时有可能导致突发性事故的发生,而造成的损失也是惊人的.这些复杂的因素很难通过直观的方式分析和理解,机器学习的介入有一定的必然性.Google数据中心副总裁Joe Kava告诉我们采用神经网络可以"预见"数据中心的"未来",从而为数据中心的工程师们提供最优的方案,Google具体是怎样做的?作者Richer Miller为我们带来了精彩的分析. 以下为译文: Google将机器学习和人工智能