云端磁盘:网络巨头如何存储数据

细想支持谷歌主页搜索框需要的技术:背后的算法,缓存的搜索词,和其他一些随之而来的特性,比如当你输入一个位于数据存储中的查询时,基本相当于绝大多数网络的一个全文本快照。当你和成千上万的其他人同时提交搜索时,这个快照也正在不断地随着这些变化被更新着。与此同时,数据是由数以千计的独立服务器进程处理的,每个都各司其职,从计算出给你提供的相关联广告,到决定搜索结果的排列顺序。

支持谷歌搜索引擎的存储系统必须能够承受每天由运行于数以千计的服务器上的成千上万的独立进程所发出的数百万计的读写请求,几乎不能停机来备份或维护,还必须不断扩容以容纳由谷歌网页抓取机器人添加的日益扩大的众多页面。总体下来,谷歌每天要处理超过20PB。

这可不是谷歌可以从一个现成的存储架构就能完成的。而且对于运行超大规模的数据中心的其他网络和云计算巨头来说也是如此,比如亚马逊和Facebook。虽然大多数数据中心已经通过在一个存储区网络添加更多硬盘容量来解决扩充存储的问题,更多的存储服务器,通常是更多的数据库服务器,因为云环境的性能限制,这些方法却失效了。在云环境下,任何时候都可能有成千上万的活跃用户的数据,而且数据的读写在任何时刻都能达到数千TB。

这不仅仅是一个关于磁盘读写速度的简单问题。以这些卷上的数据流来讲,主要的问题是存储网络的吞吐量;即使有最好的交换机和存储服务器,传统的SAN架构也能成为数据处理的性能瓶颈。

接下来就是老生常谈的扩大存储的成本问题。超大规模网络公司增加容量的频率(举个例子,亚马逊现在每天为其数据中心增加的容量相当于整个公司在2001年全年的容量,根据亚马逊副总裁杰姆斯·汉密尔顿的说法),用大多数数据中心的同样做法来摆平所需的存储,依照所需的管理,硬件和软件成本,花费将是巨大的。这种花费在关系数据库被添加到混合数据库时甚至更高,这取决于一个组织对它们的分割和复制如何处理。

对于这种不断扩展和持久存储的需求,驱使互联网巨头——谷歌,亚马逊,Facebook,微软等等——采取一种不同的存储解决方案:基于对象存储的分布式文件系统。这些系统至少都部分受到其他分布式集群文件系统的启发,如Red Hat的全局文件系统和IBM的通用并行文件系统。

这些云巨头的分布式文件系统的架构把元数据(关于内容的数据)从它存储的数据中分开。这能通过多个副本对数据进行大量并行读写操作,并且抛掉了像“文件锁定”这样的概念。

这些分布式文件系统的影响远远超出了它们为超大规模数据中心而创建的范畴——它们会直接影响那些使用公共云服务的公司(比如亚马逊的EC2,谷歌的AppEngine和微软的Azure)如何开发和部署程序。公司,大学和政府机构寻找一种快速存储和提供大量数据访问的方法正日益变成受云巨头们启发的数据存储系统的新阶段。因此有必要了解一下它们的发展史和过程中所做的工程折衷方案。

(责任编辑:蒙遗善)

时间: 2024-09-14 01:03:43

云端磁盘:网络巨头如何存储数据的相关文章

探索数据中心采购决策之存储网络与云存储

在探索数据中心采购决策系列文章中,我们在第一部分<[探索数据中心采购决策]之刀片服务器与软件定义网络>中介绍了IT管理员对服务器与网络设施的采购决策及影响因素.在第二部分< [探索数据中心采购决策]之虚拟化管理软件与灾难恢复>中,我们介绍了67%的IT和商业专家希望虚拟化管理软件能监控服务器的可用性.另外,数据中心复制刺激了购买灾难恢复的需求.这里是第三部分,主要介绍数据中心对存储网络及云存储的需求. 数据中心花钱让存储网络的管理更简单 数据中心采购专家调查发现基于以太网的存储网络

数据存储技术取得突破,存储数据需“开源”更需“节流”

日前,IBM研究团队成功地通过"孤立原子"(solitary atom)的方式创造出了全世界最小的磁体.具体的思路是,现有的数据存储技术及硬盘在存储数据时,大多需通过磁头磁化磁层上的介质,每存储1bit数据大约需要10万粒原子,而IBM通过"孤立原子"的方式,使数据存储的硬盘体积缩小了1000倍. 对此,该团队在<自然>(Nature)杂志上发文称,这一突破将为人类带来令人兴奋的全新数据存储系统. 如今,移动计算和云计算飞速发展,全球数据量随之猛增.数据

三大网络巨头如何布局移动互联网

  智能手机和平板电脑的出现和高速发展,点亮了互联网产业的发展新方向,那就是移动互联网!移动互联网的出现和发展对于传统互联网巨头来说,不仅仅是一个机遇,更是一个巨大的挑战.笔者带着大家一起看看互联网巨头是如何来对移动端进行布局,如何抢占移动端入口的. 一.百度:移动搜索像99年的PC搜索,我们有信心 我们一起看一下百度人为何有如此的自信,看看行动便一一可知.2009年11月掌上百度和百度手机输入法上线;2011年6月百度手机浏览器上线,11月8日收购创新工场旗下魔图精灵,11月15日对卓大师投资

BAT三巨头开挖大数据

阿里巴巴CTO即阿里云负责人王坚博士说过一句话:云计算和大数据,你们都理解错了. 实际上,对于大数据究竟是什么业界并无共识.大数据并不是什么新鲜事物.信息革命带来的除了信息的更高效地生产.流通和消费外,还带来数据的爆炸式增长."引爆点"到来之后,人们发现原有的零散的对数据的利用造成了巨大的浪费.移动互联网浪潮下,数据产生速度前所未有地加快.人类达成共识开始系统性地对数据进行挖掘.这是大数据的初心.数据积累的同时,数据挖掘需要的计算理论.实时的数据收集和流通通道.数据挖掘过程需要使用的软

网络诈骗是大数据的“原罪”吗?

大数据时代刚刚来临,本应造福人类的大数据技术却被诈骗分子利用,屡屡成为诈骗利器.山东临沂学生徐玉玉事件让网络诈骗浮出水面,成为新闻热点;清华大学教师被骗1760万元,则说明无论年龄老少.学历高低,都有可能成为网络诈骗的受害者.诈骗分子利用大数据按"数"索骥,实现了对受害人的精准诈骗.于是,不少人将罪恶归之于大数据技术,认为隐私泄漏.网络诈骗是大数据的"原罪".网络诈骗是大数据的"原罪"吗?我们又该如何让大数据成为造福人类.防止诈骗的利器呢? 大数

网络诈骗是大数据的“原罪”吗

作者:江西财经大学管理哲学研究中心主任.教授.博士生导师 黄欣荣 大数据时代刚刚来临,本应造福人类的大数据技术却被诈骗分子利用,屡屡成为诈骗利器.山东临沂学生徐玉玉事件让网络诈骗浮出水面,成为新闻热点:清华大学教师被骗1760万元,则说明无论年龄老少.学历高低,都有可能成为网络诈骗的受害者.诈骗分子利用大数据按"数"索骥,实现了对受害人的精准诈骗.于是,不少人将罪恶归之于大数据技术,认为隐私泄漏.网络诈骗是大数据的"原罪".网络诈骗是大数据的"原罪&quo

IBM宣布成功在单个原子上存储数据 存储方式将迎大变革

北京时间3月11日消息,据<财富>杂志网络版报道,硅谷科技巨头IBM日前宣布,该公司已经成功在单个原子上存储数据.这是历史上首次有公司能够做到这一点. 这项研究是在硅谷的阿尔马登实验室完成的,本周三被首先发表在科技期刊<自然>杂志上.媒体Quartz称,IBM的这项成就意味着,人们存储数据的方式最终将迎来巨变,因为如今普通硬盘需要使用约10万个原子才能存储1比特数据. 这项成功能够实现部分是因为,IBM研究人员发现了一种方法,来磁化钬元素的单个原子.通过使用一种科学针状物,研究人员

百度、阿里、腾讯三巨头开挖大数据

概念.模式.理论很重要,但在最具实干精神的互联网领域,行动才是最好的答案.国内互联网三巨头BAT坐拥数据金矿,已陆续踏上了大数据掘金之路. BAT都是大矿主,但矿山性质不同 数据如同蕴藏能量的煤矿.煤炭按照性质有焦煤.无烟煤.肥煤.贫煤等分类,而露天煤矿.深山煤矿的挖掘成本又不一样.与此类似,大数据并不在"大",而在于"有用".价值含量.挖掘成本比数量更为重要. 百度拥有两种类型的大数据:用户搜索表征的需求数据:爬虫和阿拉丁获取的公共web数据. 阿里巴巴拥有交易数

MongoDB如何存储数据

想要深入了解MongoDB如何存储数据之前,有一个概念必须清楚,那就是 Memeory-Mapped Files. Memeory-Mapped Files 下图展示了数据库是如何跟底层系统打交道的. 内存映射文件是OS通过mmap在内存中创建一个数据文件,这样就把文件映射到 一个虚拟内存的区域. 虚拟内存对于进程来说,是一个物理内存的抽象,寻址空间大小为2^64 操作系统通过mmap来把进程所需的所有数据映射到这个地址空间(红线),然后 再把当前需要处理的数据映射到物理内存(灰线) 当进程访问