Facebook大数据:每天处理逾25亿条内容和500TB数据

当地时间今日,">Facebook在加州总部向几位记者透露了一些关于“大数据”的统计数字,诸如Facebook系统每天要处理25亿条消息、500+ TB的数据、用户点击Like按钮的次数达到27亿次、上传3亿张照片、每半个小时扫描的数据大约为105TB。另外Facebook还首次透露了新项目“Project Prism”的有关细节。

Facebook基础设施技术部门副总裁Jay Parikh称,这些数据对于Facebook来说尤为重要。通过快速处理这些数据,Facebook能够推出新产品,知晓用户反应以及近乎实时地调整产品设计。

Facebook透露的另外一项统计数字显示:在一个单独的Hadoop磁盘集群内存储了超过100 PB的数据,Parikh表示这是全球最大的单一Hadoop系统。不过他同时指出,虽然这种数据规模对于小企业来说很庞大,但是几个月之后就没有人会在乎你的数据库内存储了100PB的数据。因为数据增长的速度非常之快,而且我们对数据变得愈加渴求,所以再过几个月,100 PB的磁盘集群就再也不是新闻了。

另外,Parikh还称,这些数据不仅仅只对Facebook有帮助,广告商同时也是受益者。Parikh解释道:“通过追踪网站上发布的广告对各个层面用户(性别、年龄、兴趣爱好)的影响,我们可以有针对性地加大广告力度,使其效果更加明显。打个比方,如果广告效应在加州相比其他地方更好,我们就会在加州投放更多的广告,从而让广告商的效益达到最大化。

Facebook甚至都不需要作出任何改变就能看到这些数据带来的影响。只要透过历史数据,Faceboo就可以建立一个模型,然后进行数据模拟,就能看到广告点击率(CTR)成倍增长。与此同时,还有一个叫做Gatekeeper的系统在测试少数比例的用户群的数据所带来的变化。

接下来谈论的是新项目“Project Prism”。现在Facebook实际上是将其所有的用户数据库(一直在不断变化增大)存储在某个特定的数据中心,其他数据中心则用来存储其他数据和冗余数据。不过随着用户数据库不断增大,一个数据中心将不足以存储所有的数据,那么就需要将整个用户数据库转移到更大的数据中心去。整个数据的转移过程其实也是一种资源浪费。

Parikh说:“Project Prism”让我们可以对这个“巨大仓库”(指用户数据库)进行分别存储但是依然不会影响整个数据视图,也就是意味着这些数据可以分别托管在Facebook在加州、弗吉尼亚州、俄勒冈州、北卡罗来纳州甚至是瑞典等地的数据中心。

在内部,Facebook选择不对数据进行分区处理或者给不同业务部门(如广告部门和客户支持服务部门)之间设置障碍。产品开发人员可以跨部门查看数据,以评估他们作出的小调整是否会增加用户在网站的停留时间、是否会引发用户的投诉或者是否增加广告的点击次数。

这样一来,作为用户,想到Facebook的员工可以对自己的活动了如指掌,肯定会感到丝丝的不安。但Facebook承诺用户,将会采取多重保护措施以免用户的数据被滥用。所有的数据访问记录会被Facebook记录下来,这样就可以追踪哪些员工查看了哪些数据。并且Facebook还会对员工进行强化训练,每个人都有各自管辖的数据领域,如果员工越权偷看了不该看的数据,那么将会被炒鱿鱼。Parikh严正声明:“我们采取的是零容忍政策,绝对不姑息任何非法使用用户数据的情况发生。”

(责任编辑:蒙遗善)

时间: 2025-01-02 06:53:33

Facebook大数据:每天处理逾25亿条内容和500TB数据的相关文章

2.8亿条、49.1TB数据免费用!中国人口与健康科学大数据首次对社会公布

2017年1月4日,国家人口与健康科学数据共享平台在国家人口与健康科技资源发布会上,首次向社会发布我国人口与健康领域的大数据资源.本次发布的大数据数据量高达49.1TB.2.8亿条,包括生物医学.基础医学.临床.公共卫生.中医药学.药学.人口与生殖健康七大类. 中国工程院院士.共享平台管理中心主任刘德培院士说,此次发布的数据较为详尽地反映了我国居民健康状况.以我国国民体质与健康数据库的建设为例,抽样调查了16个省份的48个县市居民,其中4省还进行了二次跟踪调查,指标涉及12大类.240余项,还包

中兴通讯去年预亏逾25亿成立专家扭亏团

有望今年第一季度扭亏 经历了2012年上半年的利润大降,以及前三季度的亏损,中兴通讯(000063.SZ)全年仍没能实现扭亏,亏损幅度进一步加大.中兴昨天发布2012年年度业绩预告,预计全年亏损25亿元至29亿元. 值得一提的是,华为日前刚刚宣布"跑赢大市"的消息. 根据公告,中兴通讯2012年第四季度营业收入较上年同期下降约18%,主要是国内部分系统合同签约延迟.终端收入下降,部分国际项目工程进度延迟等综合影响所致. 此外,2012年第四季度中兴总体毛利率较上年同期下降约11个百分点

崇明大招商一日引资逾80亿

重点推介六大板块 旅游园区推出5个项目欲缓解"接待难" 昨日,崇明商机研讨会暨招商推介会在浦东金茂大厦举行,崇明重点对外推介了六大板块招商项目,主要涉及工业.生产性服务业.现代服务业等.会上,6个项目当场与崇明有关方面签约,项目总投资额超过80亿元. 推5个酒店和商业项目 崇明重点对外推介的六大板块招商项目之一是崇明森林旅游园区4个地块和林中缘酒店项目,主要为旅游配套的宾馆酒店和商业项目.上海长江隧桥开通以来,前往崇明旅游观光的游客呈现出"井喷"状态,因此也出现了如

海富通基金深挖25亿大数据牵手东方财富

海富通东财大数据灵活配置混合型证券投资基金(下称海富通东财大数据基金)于1月4日开始发行.据悉,财经门户龙头东方财富网首次将其沉淀的大数据资源用做投资挖掘,由海富通基金量化团队进行管理.该产品有望依据数据源反映的个股趋势和市场情绪,对市场形成前瞻判断以获取超额收益. 基于近二十五亿大数据 东方财富网是中国访问量最大.影响力最大的财经门户网站,根据iUserTracker公布的数据显示,在有效浏览时间.核心流量价值以及日均覆盖人数等关键指标方面,其在行业内均遥遥领先. 据海富通东财大数据拟任基金经

世界杯首周,Facebook相关内容已达4.59亿条

美国与葡萄牙大战最火爆.世界杯首周Facebook相关更新评论达4.59亿条腾讯科技讯 6月24日消息,虽然美国队长克林特-邓普西(Clint Dempsey)在周日与葡萄牙的大战中表现出众,但葡萄牙当家球星克里斯蒂亚诺-罗纳尔多(Cristiano Ronaldo,以下简称"C罗")在最后时刻的精彩表现却成功帮助球队逼平美国,并避免了球队提前淘汰出局的命运.而且,后者在社交网络上的人气也依旧远超邓普西.数据显示,在美国与葡萄牙大战期间,被誉为是当今足坛最出色球星之一的C罗在Twitt

sql server-上亿条数据如何建立合理的索引?

问题描述 上亿条数据如何建立合理的索引? 其中row是从0到44000,col也是从0到44000: 共row*col条数据,就是个矩形的. row,col,X,Y,BX,BY是常查询的. 一般是row和col一起查: X和Y一起查: BX和BY一起查 请问如何建立索引查询时间会加到最低. 对了,由于数据量太大,一个表是2亿条记录以上,如何将索引加在这几个表上呢? Sql server 2008 解决方案 有个计算公式,根据你的数据分布,WHERE条件, SELECT COUNT(DISTINC

《能源地图》:阿里云数加MaxCompute轻松处理8000亿条气象数据

免费开通大数据服务:https://www.aliyun.com/product/odps 十三五期间伴随能源互联网的建设,能源大数据及云计算能力长足发展,圈内诸多专家和组织陆续又开始讨论"能源地图"的深化应用, 什么是能源地图: 能源地图 1.反映一定地域范围内能源的发展条件及其水平的地区差异的专题地图.具体说:根据能源种类,如煤炭.石油.天然气.水能.地热.太阳能.风能等,可以分别编制按能量和品种.质量分级的资源分布图,按开采和加工规模分级的能源工业企业分布图,按流向.流量表示的能

2014年超过10亿条数据记录被泄露

在IT安全领域,最糟糕的攻击情况在2014年变成普遍现象,并且没有结束的迹象.今年我们可能会继续看到数据泄露事故占据头条新闻,企业.政府和监管机构都在努力抵御攻击. 数据安全公司Gemalto表示,攻击的性质也正在变化.攻击者的主要目标是可以帮助攻击者实现身份盗窃的数据记录,这很难捕捉和阻止.最新披露的健康保险公司Anthem遭遇的8000万条记录泄露事故就是身份盗窃攻击. Gemalto在其年度数据泄露水平指数表示,在全球范围内,共有1514起数据泄露事故被公开,而泄露的数据记录数量超过10亿

全球 500 亿条数据被 Elasticsearch 勒索者删除

该文转自微信公众号"北京白帽汇科技有限公司",作者为"安全实验室",原文标题为< 威胁情报预警:Elasticsearch勒索事件 >,雷锋网已获授权. 2017年1月12日,白帽汇监测到针对全球使用广泛的全文索引引擎Elasticsearch的勒索事件,经过多日的跟进分析,直至2017年1月17日,共有3波勒索者,根据白帽汇FOFA系统对删除之前数据与被删除数据进行对比分析,此次攻击被删除的数据至少500亿条,被删除数据至少450TB.在勒索事件发生后