Facebook:一种创新数据中心网络拓扑结构

Facebook位于衣阿华州阿尔图纳的数据中心的空中鸟瞰图

Facebook的数据中心每天要收到多达数十亿次的用户请求;随着这家公司不断添加成员,推出新的功能特性,请求数量在不断增加。这一切对Facebook来说基本上是好事,可是对Facebook的网络工作人员来说却是个挑战。比如说,五个月前还能满足要求的数据中心拓扑结构现在已不堪重负了。

所以除了构建大型数据中心(比如位于衣阿华州阿尔图纳的这个数据中心)外,Facebook的工程师们还在不断优化数据中心的网络设计。话虽如此,用调整和改动来形容工程师们提出并在阿尔图纳数据中心落实的的设想想法可能并不恰当,更像是他们重新编写了网络设计指南。

旧的Facebook网络

在阿尔图纳数据中心兴建之前,Facebook的工程师们将数据中心的服务器机架排列成集群,类似图A中所示的架构。在实际环境中,Facebook不是只有三个机架,而是会有数百个机架。另外该图还显示了每个机架的架顶式(TOR)交换机,架顶式交换机在服务器和上游聚合交换机之间充当中介。

图A:架顶式(TOR)――网络连接架构

这种架构很管用,但是却给Facebook的工程师们出了几道难题。Facebook的网络工程师Alexey Andreyev解释:“首先,集群的大小受到集群交换机端口密度的限制。想建造最庞大的集群,我们就需要最庞大的网络设备,而那种设备只有一批数量有限的厂商才有售。另外,一个设备中需要这么多的端口与提供带宽最高的基础设施这种愿望相悖。更为困难的是,如何在集群大小、机架带宽和集群外面的带宽之间保持长期的最佳平衡。”

Fabric:新的网络拓扑结构

工程师们将每天那些数十亿次请求视作一种激励,决定摈弃复杂的、很耗带宽的自上而下的网络层次体系,改而换成一种新的设计,名为Fabric。图B中的幻灯片描述了新的服务器机架集群,名为pod。单单一个pod包括48个机架和架顶式交换机,架顶式交换机相互连成四只fabric交换机。“每只架顶式交换目前有4条40G上行链路,为用10G连接的服务器机架提供了总共160G的带宽容量。”

图B

这种设计方法具有下列优点:

•易于部署拥有48个节点的pod

•可扩展性得到了简化,而且没有限制

•每个pod都一模一样,都使用同样的连接

下一步是连接所有fabric交换机――图C中的幻灯片描述了这项任务是如何完成的。Andreyev表示,这个比较简单(难以想象它曾经是什么样子)。

图C

Andreyev解释,Facebook的工程师们在增添主干交换机时恪守48个节点这一原则。“为了实施覆盖整个大楼的连接,我们建立了主干交换机组成的四个独立‘平面’,每个平面里面最多可以扩展到48个独立设备。每个pod的每只fabric交换机都连接到本地平面里面的每只主干交换机。”

Andreyev接下来提到的数字大得惊人。“pod和平面共同组成了一个模块化网络拓扑结构,它能够容纳数十万台用10G连接的服务器,可扩展到数千万亿位的等分带宽,为我们的数据中心大楼提供非超额订购的机架到机架性能。”

网络运营

从架顶式交换机到网络的边缘,Fabric网络设计统一使用“第3层”技术,支持IPv4和IPv6,并且使用等成本多路径(ECMP)路由。Andreyev补充说:“为了防止偶尔出现的‘长流’(elephant traffic)大量占用带宽,导致端到端路径性能下降,我们让网络具有多种速度――所有交换机之间使用40G链路,同时通过架顶式交换机上的10G端口来连接服务器。我们还有服务器端机制,以便万一出现问题,可以绕过故障处。”

物理布局

Andreyev写道,图D中所示的新大楼布局与Facebook之前的设计区别不是很大。一个区别是,将Fabric新的主干交换机和边缘交换机放置在数据大厅X和数据大厅Y之间的第一层,并让通向外界的网络连接(最小入口点,即MPOE)跨越主干交换机和边缘交换机时代。

图D

克服挑战

Facebook的工程师似乎已克服了面临的挑战。硬件的局限性不再是个问题。不但减少了不同部件的数量,还降低了复杂性。Andreyev表示,技术团队奉行了“KISS(力求简单)”原则。他在文章的结尾处补充道:“我们新的fabric不是这种方法的一个例外。尽管这种拓扑结构规模庞大、样子复杂,但它其实是个高度模块化的系统,有许多重复部件。它很容易自动化和部署,而且运营起来比数量更少的一批定制集群还要来得简单。”

作者:布加迪编译

来源:51CTO

时间: 2024-09-20 10:52:51

Facebook:一种创新数据中心网络拓扑结构的相关文章

Facebook的下一代数据中心网络

498)this.width=498;' onmousewheel = 'javascript:return big(this)' height="709" alt="" src="http://s6.51cto.com/wyfs02/M00/53/88/wKioL1RqtW6zrTnyAACcKVu8WDo093.jpg" width="620" style="width: 505px; height: 299px

Facebook十亿美元打造全球数据中心网络

目前,http://www.aliyun.com/zixun/aggregation/1560.html">Facebook已经在基础设施投资10亿美元以上,而这些网络正在为全球各地8.45亿用户提供服务.该公司在2011年共花费了6.06亿美元,用于服务器.存储.网络设备和数据中心的建设,而预计今年将再花费5亿美元,这是Facebook在周三的首次公开发行股票时提交文件中的透露. 该公司表示,服务器和存储的庞大舰队必须无缝地协同工作,为用户提供每一个Facebook页面. 载入用户的主页

云数据中心网络架构是怎么融合的

  如果仅从字面上,数据中心融合网络架构还是不那么容易理解的,融合本身就是一个热词,很多场合都在使用,从三网融合.技术融合到存储融合,到处都在融合,那么,所谓的融合网络又是什么? 抛开对融合网络架构定义的追究,我们不妨看看数据中心发展,特别是云计算应用给数据中心网络带来的问题. 如今超大数据中心比比皆是,从Google到Facebook,数据中心规模之大令人瞠目.在国内,百度数据中心也有至少几万台服务器.几千台交换机,而数据中心管理人员只有几十人,管理如此规模设备,对网络部署自动化的要求比较高.

小扎曝Facebook北极数据中心图片 最先进数据中心都建在哪?

◆ ◆ ◆ 导读 Facebook CEO马克·扎克伯格昨日很难得的放出了Facebook位于北极数据中心Luleå的图片. 该数据中心位于北瑞典的森林,这里低温和靠近河流的天然优势能够有效为数据中心的运转节能提效.Luleå数据中心的规模相当于6个足球场,中心通过巨型风扇引入户外的自然冷风为成千台设备降温. 扎克伯格在自己的Facebook主页还提到:"你在Facebook上与朋友互动的时候可能不会联想到Luleå的存在,但是它的确是使用复杂的科技基础设施来保证全球联系的典型例子.我希望将来可

为云准备 新数据中心网络释放代码数据

本文讲的是为云准备 新数据中心网络释放代码数据,IT标准化和商品化的后果之一是谷歌的数据中心是计算机对世界的看法.在所有计资源中,包括CPU,内存,存储都是可替代的.无论独立的位置,还是配件它们是可以互换的.未来,PC将失去失去主导地位,仅仅成为IT服务的一部分.   ▲数据中心网络架构图 访问失败已经是商业数据中心的最糟糕表现,引起这个问题的原因源于现在的网络结构状态上更容易搭配.MapReduce的著名代码也正因为如此而存储到各个节点. 网络环境的变更和假设条件的改变,将驱动软件基础架构驱动

Facebook开源技术CTO John Kenevey:Facebook开源数据中心

第六届中国云计算大会于2014年5月20-23日在北京国家会议中心拉开帷幕.本次大会立足实践,以国际化的视野,帮助与会者了解全球云计算技术的发展趋势:从应用出发,探讨交通.医疗.教育.金融.制造.数字娱乐等行业领域的实践经验:并通过技术专场.产品发布和培训课程等方式,深度剖析云计算大数据的核心技术. Facebook公司开源技术CTO John Kenevey 在第六届中国云计算大会主体会议,最后一个演讲来自Facebook公司开源技术CTO John Kenevey,他为大家分享的主题是"Fa

MIT研究人员称他们解决了数据中心网络延迟问题

一组MIT研究人员研发出一套新的数据中心网络框架,声称能解决数据中心网络延迟问题.被称为Fastpass的 系统是一种中心化的零队列数据中心网络,能对包传输的时间和网络路径进行细颗粒度的控制,它使用一个中心化的仲裁器从整体上对网络进行分析,根据分析作出 路由决定. 在Facebook数据中心的试验显示,一个Fastpass仲裁器仅仅是一8个核心就能管理每秒2.2Tb的数据传输.

Facebook公开数据中心令谷歌蒙羞

facebook 导语:美国科技博客BusinessInsider撰稿人马特·罗索夫(Matt Rosoff)今天撰文称,Facebook公开数据中心设计的目的是让谷歌最核心的资产成为普通商品,借此打击谷歌,甚至令其蒙羞. 以下为文章全文: 当一家公司以"开放"自夸时,要搞清它的真实目的,最好的方法就是找到一家与它从事相同业务且封闭的竞争对手. 尽管笃信者一直在辩解,但"开放"的确是包含着一定的商业目的:这是一种从竞争对手主导的市场中挖掘价值的好办法. 先来回顾两个

数据中心网络变革因云而起

云计算基础设施的关键技术包括服务器.网络.存储和数据中心的其他相关技术.近几年服务器.存储等部分都取得了很多的改进,比如服务器计算到虚拟计算,虚拟存储的演进等.反观数据中心网络的发展,却略显力不从心.但这样的力不从心正在得到本质上的改善.云抽象化的可以看做一个庞大的网络系统,在云内包含上千甚至是上万台服务器,而虚拟化技术的普遍应用使得实际网络节点的数量更加的巨大, 所以用于连接云数据中心内部和云数据中心间网络成为实现计算和存储能力的关键环节.因为企业在迈进云计算的过程中,选择服务器虚拟化以提升效