百度推易手机背后:将开发跨数据中心存储系统

百度与戴尔近日联合推出百度易手机,这款手机上每个用户可拥有100G免费存储空间。这也引发了业界对百度大数据存储能力的关注。百度为何能提供100G免费存储空间,未来又将在大数据存储方面做哪些工作。

百度技术委员会理事长陈尚义对腾讯科技解密,称百度成立之初就开发了自己的大数据存储系统。团队云集包括谷歌、IBM、微软等数据存储和处理方面专家。他还透露,百度未来将开发跨数据中心存储系统。

陈尚义介绍,百度每天面对海量数据。每天收集几千亿网页,系统每天都产生海量日志,容量达到百PB级,需要数万台服务器存储,这还不算用户在使用百度产品中自己生成的内容(UGC)和百度客户数据,这部分数据加起来就有几个PB,仅这些数据就比传统企业的大上很成千上万倍。并且随着网页资源增加和搜索质量提升,网页和超链数据将随之急剧增加。

百度数据呈现海量、高增长,结构化和非结构化大量并存,记录大小差距巨大,数据一致性强弱不一,数据冷热不均,突发事件常导致数据访问波峰等特点。与此同时,百度业务对数据存储和处理提出极高要求。要求数据高可用、高可靠、高通量、高时效、高并发、高可扩展,要求百度的数据存储能力和处理能力必须以非常简单的方式获得扩容,以降低维护升级的代价。面对这些特点和要求,百度必须开发自己的大数据存储系统。

陈尚义说,百度最早上线数据存储系统时,开源系统还没有发布,还由于开源系统的性能受限、无法充分利用机器的各种资源尤其是新硬件资源、无法为特定的访问模式做优化、缺乏满足工业界的稳定性等诸多原因,百度不能使用开源系统。不仅开源的用不上,而且市场上无现成商业化产品可供百度使用,因为任何一个厂商都没有如此海量、如此复杂的数据。

百度一开始就自主开发了大数据存储系统,用于存储网页和超链、客户信息和用户产品、系统日志等海量数据,支持Table、Pipe、File和KV等数据类型,满足百度业务的流式和触发式计算、文件存储和访问、低延迟、高并发的需求。

陈尚义说,在这些基础上,百度还面向广大网民推出云存储系统,在前不久发布的百度易手机上,每个用户可拥有100G的免费存储空间。除了给每个用户100G的免费空间外,百度易手机上应用和数据,都是这套系统在背后支撑。

百度大数据存储体系

陈尚义还透露,为应对上百PB的数据,满足诸多近乎苛刻的要求,百度采取了一些措施。包括开发网页更新模型,将对磁盘的随机写转化为批量的顺序写,提高数据的写入速度,缩短了网页数据的更新周期,提高搜索引擎等产品时效果性。

此外,还包括对涉及数据存储和访问的各个方面进行全局优化。对访问模式采用数据索引、缓存热点数据、外存预读、IO缓存等技术手段,降低在线访问的延迟,提高系统的吞吐量;未来,百度还将开发跨数据中心的存储系统。

(责任编辑:吕光)

时间: 2024-08-03 19:19:33

百度推易手机背后:将开发跨数据中心存储系统的相关文章

百度未来将开发跨数据中心存储系统

近日,百度与戴尔联合推出百度易手机,这款手机上每个用户可拥有100G免费存储空间.这也引发了业界对百度大数据存储能力的关注.百度为何能提供100G免费存储空间,未来又将在大数据存储方面做哪些工作. 百度技术委员会理事长陈尚义对腾讯科技解密,称百度成立之初就开发了自己的大数据存储系统.团队云集包括谷歌.IBM.微软等数据存储和处理方面专家.他还透露,百度未来将开发跨数据中心存储系统. 陈尚义介绍,百度每天面对海量数据.每天收集几千亿网页,系统每天都产生海量日志,容量达到百PB级,需要数万台服务器存

跨数据中心二层网络——H3C云间互联解决方案

数据中心间通常部署以下三种互联链路,每种互联链路所承载的数据不同,实现的功能不同,如下图所示: 三层互联.也称为数据中心前端网络互联,所谓"前端网络"是指数据中心面向企业园区网或企业广域网的出口.不同数据中心(主中心.灾备中心)的前端网络通过IP技术实现互联,园区或分支的客户端通过前端网络访问各数据中心.当主数据中心发生灾难时,前端网络将实现快速收敛,客户端通过访问灾备中心以保障业务连续性. 二层互联.也称为数据中心服务器网络互联.在不同的数据中心服务器网络接入层,构建一个跨数据中心的

Twitter的跨数据中心图片存储系统Blobstore

Twitter一直没有自己的图片存储系统,此前系统从2011年6月开始内置采用http://www.aliyun.com/zixun/aggregation/16874.html">Photobucket的服务,另外,也支持Instagram等第三方图片应用上传到Twitter系统中.随着Twitter整体由开放转向封闭,切断第三方图片上传,同时自行提供图片系统是势所必然的. 12月11日,Twitter工程博客发表文章,介绍了9月份已经上线使用的图片存储系统Blobstore的底层架构.

谷歌新论文:基于Linux的世界级跨数据中心服务器CPU监控

Google已经实现世界级数据中心服务器监控,新的技术可以监控世界范围内每台服务器上的每个任务:其最终目的是通过这些数据有选择对进程进行干预.甚至是关闭该进程让同CPU上的其它进程得以运行. 搜索巨头在技术论文(PDF)中详细的描述了这一世界级监视技术的实现方法,相信使用大型基于Linux云计算基础设施的机构都会对此感兴趣. 论文中写道: 性能隔离是云计算的主要挑战.不幸的是,Linux缺少对共享资源(比如:处理器缓存.存储器总线等)中性能干扰的防御:这样的话,公有云中的应用程序将无法避免来自邻

惠普开发新型数据中心管理技术

惠普本周三宣布将在其新的数据中心基础设施上对太阳能发电和http://www.aliyun.com/zixun/aggregation/13703.html">自动化管理进行组合,让数据中心受电网的影响降到最低. 这项新产品将用于记录数据中心的使用概况,为用户提供详细的的预测,使他们能够为计算工作量建立最有效的时间表. 根据惠普提供的一个例子显示,公司可以确保非敏感时间的工作负载,白天时间可以使它们能够完全由太阳能电池供电.系统还可以帮助调度和优化计算资源,提供在繁忙时间保持关键任务的能力

谷歌公司重新思考开发数据中心存储技术

根据相关机构的预测,数据中心的存储容量市场增长没有放缓的迹象.思科公司预计,到2019年,使用个人云存储服务的全球互联网用户(20亿)将从2014年的42%增长到2019年的55%,每个用户每月消费的云存储流量将从2014年的992兆字节增长到2019年的1.6GB字节.思科公司称之为"万物联网"的物联网数据将会从2014年的134.5ZB字节增长到2019年的507.5ZB字节. 不用说,这是一个庞大的数据量,需要大量的存储空间,而谷歌公司需要采用各种方法对此进行根本性转变,该公司的

ARM缺乏独特优势 百度南京数据中心方案解读

上次我们的文章里介绍了ARM处理器在服务器和数据中心领域标志性产品Viridis的一些情况,总结下来存在几个问题.比如在性能方面,ARM平台搭建的运算环境是否能满足数据中心的使用需求.具体的运算性能如何还是未知数;在应用方面,为何最终选择了用X86模拟器这种低效能的工作模式,是否ARM硬件对当前系统的兼容性存在一定问题.但是现阶段ARM领域最热门的已经不是Viridis. 不久前百度公布了自己的http://www.aliyun.com/zixun/aggregation/13453.html"

开发-安卓百度推送点击问题

问题描述 安卓百度推送点击问题 百度推送,使用了百度的开发文档的Demo,在FrontiaPushMessageReceiver的类中的 onNotificationClicked的方法中含有三个参数,只能得到前两个,而后一个始终为null, 但是在后台推送的消息中包含了三个参数,是什么原因导致第三个参数为空? 解决方案 参考一下这个例子 接收推送 功能描述 接收推送消息和通知,以及接口start.stop.setTags.deleteTags和listTags的返回值,开发者要实现一个Fron

站长网每日播报:百度推云服务 旅游网站价格战

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 百度正式推出云服务平台 向开发者提供API 9月3日上午消息,百度世界2012大会今日在北京召开,此间百度正式推出面向用户的云服务平台(yun.baidu.com),目前提供云存储.相册.通讯录等产品.此外,百度云还向开发者提供API,并称这一模式为云2.0. 此次,百度云发布的功能包含相册.网盘.通讯录等云产品.同时还提供了跨屏.跨终端的功能,覆盖电脑.手机.pad.电视等平台.未来百度还会打通音乐.文库等主流产品,纳入到一站式云平台的服