Facebook、亚马逊等巨头是如何建造自己的数据库的?| 全球聚焦

 

在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

体系结构

后端数据存储

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

AIRBNB的数据基础结构

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

数据管道结构图

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:

Pinterest商业数据分析结构图

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

信息流接收

存储

批处理计算

加速计算

总览

Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

Keen IO 信息处理结构图

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

感谢!

感谢团结一致的数据工程界,不断发明新的数据技术、开源,并分享他们的知识。如果没有这么多工程队伍的基础工作,没有与我们天天一起合作的人,我们的团队也不可能有今天。欢迎各方的意见和反馈。

特别感谢文章中提到的的作者和建筑师:Netflix的Steven Wu,Facebook Presto、AirbnbEng和Pinterest的工程师Martin Traverso,以及Crashlytics Answers的Ed Solovey。

感谢编辑Terry Horner,Dan Kador,Manu Mahajan和Ryan Spraetz的帮助。

翻译来自:虫洞翻翻   译者ID:王炜   编辑:郝鹏程

在Keen IO,我们认为会运用事件数据的公司才具有竞争优势,世界领先的科技公司证明了这一点。但是我们仍然对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事情感到惊讶。他们为软件和企业从数据中获取信息而制定了新标准。

由于他们的产品用户量极大,所以这些团队必须不断地定义规模分析的方法。他们已经在数据架构中投入了数百万美元,并且在大多数公司中,数据团队的规模超过了整个工程部门的规模。

我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。

Netflix

Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3 PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。

以下是上述文章中数据架构的简化视图,其中显示:开源系统Apache Kafka,搜索服务器Elastic Search,亚马逊云存储服务AWS S3,进行大数据处理的Apache Spark,运行框架Apache Hadoop和大数据分析服务EMR作为主要组件。

Facebook

拥有超过10亿的活跃用户,Facebook有世界上最大的数据仓库之一,存储超过300PB。该数据被用于广泛的应用:从传统的批处理到图形分析,机器学习和实时交互式分析。

为了进行大规模的交互式查询,Facebook的工程师发明了Presto,一种针对点对点分析进行优化的定制分布式的SQL查询引擎。每天有1000多名Facebook员工使用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,每天执行查询次数超过30000次。

体系结构

后端数据存储

Airbnb

Airbnb支持超过1亿用户浏览200多万的房屋列表。他们智能地向这些用户提供新的旅行建议的能力,这对他们的成长有很大影响。

Airbnb的数据科学经理Elena Grewal在去年的会议“建立一个世界级的分析团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的规模。这是每人每年500万的投资。

在博客《数据基础架构》一文中,AirbnbEng建筑师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描述了构建数据结构的基本要素以及如何为关键任务数据提供更高的可靠性。他们严重依赖Hive和Apache Spark,并使用了Facebook的Presto。

AIRBNB的数据基础结构

Pinterest

Pinterest每月有超过1亿的用户浏览超过100亿的网页浏览量。截至2015年,他们将数据团队扩展到拥有250多名工程师的规模。他们的基础设施依赖于开源系统Apache Kafka,数据处理框架Storm,系统基础架构Hadoop,开源数据库HBase和GPU渲染器Redshift。

数据管道结构图

Pinterest团队不仅需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向广告商提供详细的分析。黄彤波在《Behind the Pins: Building Analytics at Pinterest》一文中写道:为了满足这一需求,他们改进了自己的分析堆栈。以下是Pinterest团队如何使用Apache Kafka,AWS S3和HBase的示意图:

Pinterest商业数据分析结构图

Twitter / Crashlytics

每天实时处理50亿次会议。Ed Solovey介绍了Crashlytics Answers团队构建的一些架构,用于处理数十亿的日常移动设备事件。

信息流接收

存储

批处理计算

加速计算

总览

Keen IO的数据架构

正如我之前提到的,我们构建了Keen数据接口(API),以便任何开发人员都可以使用世界一流的数据架构,而无需拥有一个庞大的团队构建一大堆基础架构。成千上万的工程团队使用Keen的API来捕获、分析、流式传输和嵌入事件数据,包括实时和批处理应用程序。

虽然使用Keen的开发人员在发送事件或运行查询时不需要知道幕后发生的情况,但下面是处理其请求的体系结构:

Keen IO信息处理结构图

在输入方面,负载均衡器处理数十亿个传入的帖子请求。事件流来自于应用程序,网站,连接设备,服务器,计费系统等等。事件需要验证、排序和可选择地丰富额外的元数据,如IP-地理查询。这一切都发生在几秒钟内。

一旦安全地存储在Apache Cassandra中,事件数据就可以通过REST API进行查询。我们的架构(通过Apache Storm,DynamoDB,Redis和AWS lambda等技术)支持从原始传入数据实时数据探索,到应用程序和面向客户报告的缓存查询的各种查询需求。Keen每天查询数万个事件属性,并为成千上万的客户构建报告,自动化和数据挖掘界面。

感谢!

感谢团结一致的数据工程界,不断发明新的数据技术、开源,并分享他们的知识。如果没有这么多工程队伍的基础工作,没有与我们天天一起合作的人,我们的团队也不可能有今天。欢迎各方的意见和反馈。

特别感谢文章中提到的的作者和建筑师:Netflix的Steven Wu,Facebook Presto、AirbnbEng和Pinterest的工程师Martin Traverso,以及Crashlytics Answers的Ed Solovey。

感谢编辑Terry Horner,Dan Kador,Manu Mahajan和Ryan Spraetz的帮助。

翻译来自:虫洞翻翻译者ID:王炜 编辑:郝鹏程

时间: 2024-09-20 00:11:19

Facebook、亚马逊等巨头是如何建造自己的数据库的?| 全球聚焦的相关文章

亚马逊在上海自贸区设立国际贸易总部,将把全球商品进口到中国

摘要: 最快在今年第四季度,中国消费者就能够通过亚马逊官网的特定入口,下单.选购商品,通过人民币结算,并直邮到中国根据亚马逊与上海自贸区管委会.上海信息投资股份有限公司的 最快在今年第四季度,中国消费者就能够通过亚马逊官网的特定入口,下单.选购商品,通过人民币结算,并直邮到中国--根据亚马逊与上海自贸区管委会.上海信息投资股份有限公司的合作备忘录,亚马逊在上海自贸区设立国际贸易总部,将把全球商品进口到中国.直接出售给消费者:同时,也把中国卖家的商品卖到全球. 这是继AWS入华外,亚马逊又一次漂亮

iPhone年营收884亿美元 超微软亚马逊行业巨头

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   硅谷网讯 彭博<商业周刊>整理的数据显示,苹果单iPhone这 一款产品过去12个月的 销售额便达到884亿美元,超过微软.亚马逊等行业巨头. 近年苹果CEO蒂姆·库克(Tim Cook)遭到了外界不少的诟病,被指苹果在他的领导下已经辉煌不再--iPhone智能手机系列有时还被称作是强弩之末,份额不断流失给更具创新性的品牌,如Android和三星.不

是真是假?苹果、谷歌、亚马逊三巨头竞标东芝闪存业务

根据一些来自日本的最新报告指出,科技业三家最大且最知名的公司不约而同地都对于竞标东芝的内存芯片业务深感兴趣. 这是真的吗? 最近在日本<读卖新闻>(Yomiuri Shimbun)上的一篇报导指出,苹果(Apple).Google与亚马逊(Amazon)三巨头正式宣布参与东芝(Toshiba)内存芯片业务的竞标活动. 关于这一点必须先提出一些免责声明. 首先,这项消息来自一个多星期前的<读卖新闻>,文中并未提到任何消息来源:其次,上述公司中没有一家出面证实这项消息的准确性. 但是,

电商创业,你如何跟亚马逊等巨头竞争?

对于实体店零售商来说,亚马逊是一个让人忌惮的竞争对手,因为后者拥有巨大的规模和成本优势,以及向用户做出的最低价承诺.亚马逊也正是凭借这些优势,成为了其他网商可怕的竞争对手不管是电子商务还是实体店零售店想要跟亚马逊PK,需要与众不同的策略.对于中国的中小电子商务网站来说,借鉴国外同行的经验,或许有所帮助.以下为文章摘要:实体店零售商都非常关注亚马逊"Show-rooming"这个概念,即消费者走进实体店,直接用户智能手机扫描货架上的商品,就可以将实体店商品的价格跟亚马逊上同类商品价格作比

亚马逊云服务免费提供千人基因组计划数据库

北京时间3月30日消息,据国外http://www.aliyun.com/zixun/aggregation/31646.html">媒体报道,亚马逊网络服务公司(AWS)和美国国家卫生研究院今天宣布,白宫大数据峰会决定将完整的千人基因组计划数据库通过AWS免费向大众公开.这意味着世界各地的研究人员均可免费访问这个全球最大的人类基因库. 千人基因组计划由75家公司和组织协同建立,用以建立最详细的人类遗传变异目录.目前该项目拥有超过1700个样本,高达200TB数据量的DNA序列,这些数据都

亚马逊跨境电商把中国商品卖向全球

摘要: 在跨境电商领域雄心勃勃的亚马逊中国本周在广州举办了首届全球开店卖家研讨会,会上有来自亚马逊美国.日本.英国和中国网站的团队与超过70家全球开店卖家当面交流,分享亚马逊全 在跨境电商领域雄心勃勃的亚马逊中国本周在广州举办了首届"全球开店"卖家研讨会,会上有来自亚马逊美国.日本.英国和中国网站的团队与超过70家"全球开店"卖家当面交流,分享亚马逊全球市场的独特资源优势,传授中国卖家在海外市场成功的独门秘笈,并就电子消费品.服装服饰等垂直领域的运营技巧进行了深入探

亚马逊危险了!面临创业公司和科技巨头的颠覆

由于四面树敌,亚马逊的疯狂扩张战略似乎蕴含着巨大风险. 光是过去9个月,这家靠网上卖书起家的电子商务巨头,就凭借着流媒体电视机顶盒.Fire Phone智能手机和Local Register支付服务,挺进了三大硬件领域.亚马逊还发布了本地化服务集市.不限数量的电子书订阅服务.Pantry杂货配送服务(及其配套的条形码扫描仪),以及一款流媒体音乐服务.它同时还在尝试无人机送货,并向自制剧领域投入了数百万美元. 不仅如此,它旗下还拥有Zappos.Diapers.com和IMDB--而这些,也仅仅是

对于中、美两大电商巨头而言,阿里与亚马逊未来必有一战

对于中.美两大电商巨头而言,阿里与亚马逊未来必有一战,但是两者的商业模式存在着本质差异,近年来的新业务重点和打造的生态圈以及创始人风格也有较大区别,这意味着两家公司都将具有广阔的空间. 一年一度的中国电商大促销节日--"双十一"即将来临.阿里和其他的电商正紧锣密鼓准备中,我们相信又一个销售神话即将诞生.特别是在阿里巴巴完成纽约上市后,第一份双十一销售数据对于资本市场和投资者显得尤为重要.尽管美国也有圣诞购物季,但双十一却是阿里巴巴发起的一个中国特色虚拟节日,也足可以见阿里及中国电商的影

亚马逊商业模式:数据化运营贯穿亚马逊业务

文章描述:亚马逊商业模式. 在西雅图,亚马逊算得上低调.在其总部的办公楼群的外面,你甚至都见不到它的Logo.在这个高科技气息浓厚的城市里,有微软这样的软件巨头,有全球最大的在线旅游公司Expedia,它们的霓红灯牌在西雅图的夜空格外闪耀,甚至连eBay和Facebook等硅谷明星公司也在这里设立了办公室,因为这里汇聚了全美顶尖的工程师. 这里炙手可热的工程师,很多是亚马逊公司的极客.这家全球最大的在线零售企业.市值仅次于谷歌的第二大互联网企业,缔造了一个庞大的在线商业帝国.大家都知道亚马逊有着