Netflix展示大数据分析基础架构

Netflix资深软件工程师Tom Gianos和Netflix大数据计算工程经理Dan Weeks在2016年度QCon旧金山活动中介绍了Netflix的大数据策略和分析基础架构,此外还概括介绍了他们的数据规模、S3数据仓库,以及他们的大数据大数据联合编排系统(Federated orchestration system)Genie。

为了介绍具体的需求,Weeks解释称,“规模”是Netflix在大数据领域面临的最大挑战。该公司在全球范围内有超过8600万会员,每天通过流播的方式播放总时长超过1.25亿小时的内容。这样的规模导致他们的数据仓库容量已经超过60PB。

尽管很多人可能觉得视频流播数据是Netflix数据分析工作的主要数据源,但Weeks解释说,他们分析的主要是其他类型的数据,例如公司内部各种微服务和营销活动产生的事件,尤其是Weeks专门提到:

Netflix是一家彻头彻尾的数据驱动型公司。我们喜欢根据真凭实据作出不同的决策。对于整个平台的某些变更,如果无法切实证明有助于改善用户体验,我们宁愿不进行这样的变更。

Weeks列举了一个此类数据类型的用例:A/B测试。数据科学家可以分析用户的交互,进而决定向用户永久推送哪些类型的功能。

Weeks还概括介绍了Netflix的数据流程架构。他们共使用了两个数据流,一个用于事件数据,一个用于维度数据。事件数据通过他们的Kafka数据管道传递,维度数据则使用开源工具Aegisthus从他们的Cassandra群集拉取。最终,所有类型的数据汇总至S3。

虽然传统数据仓库可以使用HDFS,但Weeks提到使用S3可以获得其他一些优势。例如99.99%可用性、版本控制,以及将计算负载从存储系统中剥离的能力。最后一点非常关键,尽管数据未能本地保存会导致延迟增高,但通过这样的剥离可以很轻松地在无须移动数据的前提下对计算群集进行缩放或执行升级任务。

在数据仓库方面,为了获得所需数据,Weeks介绍说他们使用了一种名为Metacat的元数据系统。具体来说,该系统提供了有关确定如何处理数据所需的信息,此外还可以从中了解数据具体是什么,保存在哪里。由于这是一种联合(Federated)系统,因此可在Hive、RDS、S3等存储的基础之上运行的技术。

Weeks还介绍说,数据本身存储为Parquet文件格式。这是一种列式存储格式,借此可获得更高压缩率。Parquet文件还可以存储额外的元数据,例如有关列最大/最小长度及其体积的信息。这样诸如计数或跳过之类的操作就可以非常快速地执行完毕。

有关Parquet调优地详细信息已由Netflix资深软件工程师Ryan Blue公开发布至这里。

在Weeks从底层介绍他们的大数据环境后,Gianos从较高层面进行了介绍。他介绍的内容主要围绕Genie,这是一种联合编排引擎,可用于管理诸如Hadoop、Pig、Hive等不同类型的大数据作业。

为了介绍他们针对Genie的具体需求,Gianos用一个简单的用例作为例子:少量用户同时访问同一个群集。虽然这种情况非常易于管理,但随着组织规模的增大,可能会面临不同的情况,导致对客户端资源和群集资源的需求激增,进而导致部署变得愈加复杂。这就导致了导致数据科学家经常遇到的问题,例如作业速度变慢,数据处理库过时等,这也使得系统管理员难以轻松地对这些问题作出响应。

按照Gianos的介绍,Genie可以帮助系统管理员执行群集的启动和管理、库文件的安装等任务,这一切都不会影响到最终用户。从用户的角度来看,用户可以通过这样的抽象直接访问群集,而无须考虑如何连接到群集,也不需要了解群集上到底运行了什么。

在群集的更新方面,Gianos介绍说,只要成功通过测试,只需要添加对应的标签即可顺利迁移至新群集。Genie可以对所有工作进行编排,并让原本的作业继续在老群集上运行,同时新提交的作业可以在新群集上运行。这样即可实现不停机更新。

Genios还介绍说,Genie的标签机制可以应用于负载均衡,为此只需跨越群集对标签进行复制即可拆分负载。从客户端的角度来看,这一过程是完全透明的。

另外Genios也介绍了Genie的二进制更新机制。新的二进制文件可以移动到一个集中的下载位置,随后在下一次调用时自动替换老的文件。

Genios从数据科学家的角度演示了Genie的完整工作流。基本上,他们只需要将作业提交至Genie,其中可包含群集标签等元数据,以及自己希望使用的大数据处理引擎。随后Genie可以查找最适合运行该作业的群集。Genie的界面会通过用户反馈告诉用户作业的运行进度。

本文转自d1net(转载)

时间: 2024-08-01 02:30:36

Netflix展示大数据分析基础架构的相关文章

企业应该如何在大数据基础架构方面做出选择?

如果询问十家公司他们为了运行大数据负载需要使用怎样的基础架构,那么可能会得到十种不同的答案.现在这个领域当中几乎没有可以遵循的原则,甚至没有可以参考的最佳实践. 不管是从资源还是从专业性方面来说,大数据分析已经成为基础架构领域当中真正的难题.顾名思义,大数据分析工具所针对的数据集合,规模将会非常庞大,并且需要大量的计算.存储和网络资源来满足性能需求.但是这些大数据工具通常是由超大规模企业开发的,这些企业并不存在普通企业需要考虑的同等级安全问题和高可用性问题,而主流IT企业还没有深入了解这些工具,

周涛:大数据分析基础衍变定量科学

大数据带来的科学变化是以往很多在实验室小规模控制的科学问题,一些科学学科,比如http://www.aliyun.com/zixun/aggregation/39459.html">社会科学,本质上是定性,现在大数据分析的基础上都会变成定量的科学. 互联网科学中心主任<大数据时代>中文译者 周涛博士 以社会科学为例,互联网科学中心主任<大数据时代>中文译者周涛博士表示以前做社会科学大的试验无非是几百人.上千人做问卷,现在我们自己做的问题涉及的都是几千万,甚至超过一个

《Python金融大数据分析》一第2章 基础架构和工具

第2章 基础架构和工具 Python金融大数据分析基础架构比体系结构还要重要得多. --Rem Koolhaas 你可能会说基础架构不是一切,但是没有基础架构,什么东西都可能毫无意义--在现实世界或者技术中都是如此.那么,我们所说的基础架构是指什么呢?理论上,它是使简单Python脚本或者更复杂的Python应用程序得以执行的硬件和软件组件. 但是,本章并不打算详细介绍硬件基础架构,因为所有Python代码和示例应该可以在几乎所有硬件上执行[1].我们在此也不打算讨论不同的操作系统,因为Pyth

大数据环境下Hadoop基础架构有多重要?

Hadoop和大数据在同一时段开始流行起来,因而成了同义词.但是,二者并不是一回事儿.Hadoop是在集成处理器集群上实施的一种并行程序设计模式,主要用于数据密集型http://www.aliyun.com/zixun/aggregation/13506.html">分布式应用.Hadoop的作用就在于此.早在对大数据的热衷之前,Hadoop就已经存在.但后来Hadoop的意义变了,被当作一种结构用以建立大数据基础架构. Hadoop以谷歌的MapReduce算法为基础,该算法是在集群中分

IBM大数据分析技术再升级

11月30日,IBM宣布,作为业界最全面大数据解决方案提供商,IBM正在积极实践一系列全新大数据分析解决方案,帮助数字营销.客户服务.运营管理.财务绩效等不同领域的客户从激增数据中获取可行动的洞察,转换与顾客.员工和合作伙伴的互动方式,赢得业务先机.在此前的2012 IBM信息随需应变和业务分析峰会(IOD)上,IBM以"Think Big"."Big Data"和"Big Future"为主题,再次强调了大数据时代大洞察的重要意义,以客户实际经

如何打造高性能大数据分析平台

大数据分析系统作为一个关键性的系统在各个公司迅速崛起,但是这种海量规模的数据带来了前所未有的性能挑战.同时,如果大数据分析系统无法在第一时间为运营决策提供关键数据,那么这样的大数据分析系统一文不值.本文将从技术无关的角度讨论一些提高性能的方法.下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍).本文应作为一个通用准则,以确保最终的大数据分析平台能满足性能要求. 译文丨如何打造高性能大数据分析平台 1. 大数据是什么? 大数据是最近IT界

大数据分析需求上升 国家级实验室成立

文章讲的是大数据分析需求上升 国家级实验室成立,近日,经国家发展改革委员会正式批复认定,"大数据分析技术国家工程实验室"将由中科院计算所.中国科学院大学和中科曙光等单位联合共建.该国家工程实验室的落地,正式将大数据分析技术的研发需求上升到国家高度. 近年来,"数据即资产""数据产生价值"等观念深入人心,然而真正能够让数据价值变现的大数据挖掘与分析技术仍远远不能满足当前需要.当前的数据挖掘分析手段仅能满足"复杂数据的简单分析".

大数据分析系统国家工程实验室成立

日前,大数据分析系统国家工程实验室正式成立.该国家工程实验室由中国科学院计算技术研究所牵头,联合中国科学院大学.中国科学院计算机网络信息中心.曙光信息产业股份有限公司.国创科视科技股份有限公司共同建设. 大数据分析系统国家工程实验室将在关键技术层面,突破大数据分析的核心技术瓶颈,研制第三代大数据分析软件栈,实现理论.架构.算法和接口的整体性.系统性突破,在科学发现.智慧城市.社会安全等方面形成重要应用.同时,工程实验室还将结合行业和地方产业的需求建立示范基地和分实验室,培养和汇聚大数据分析系统研

浪潮IDF2016展示InCloudRack:极佳的异构云基础架构平台

美国当地时间8月16-18日,IDF16在美国旧金山举行,本届大会的黄金赞助商浪潮,在大会上展出了云计算基础架构解决方案--融合架构InCloudRack一体机,该产品为整机柜形态,实现了计算.存储和网络资源的统一管理和调度,可支持VMware.OpenStack等主流的云计算平台软件.   InCloudRack云一体机展示区现场 InCloudRack云一体机体现了浪潮对云计算基础架构的独特理解,该产品采用全模块化设计,拥有众多企业级RAS特性,包括刀片级稳定性,供电和管理等模块的冗余和热插