Facebook谈大数据:光有Hadoop还不够

  ">Facebook分析主管Ken Rudin表示,Hadoop编程框架可能是“大数据”运动的代名词,但对于公司从大规模存储的非结构化信息中得到商业洞见的需求,Hadoop不是唯一的工具。

  “有很多普遍的大数据信念需要被质疑,”Rudin说,“问题是,Hadoop是一种技术,但大数据不是关于技术的,大数据是关于业务需求的。”

  “实际上,大数据应该包括Hadoop和关系型数据库和任何其他适合手头任务的技术。”他补充说。

  Facebook的商业模式依赖于对其超过10亿社交媒体用户的用户资料和活动数据的处理,以提供有针对性的广告。但是,“对于我们的所要做的,Hadoop并不总是最好的工具。”Rudin说。

  例如,在Hadoop中对一个数据集做广泛的探索性分析是有意义的,但关系型存储对于进行运营分析的发现更好。

  Rudin表示,Hadoop对于在一个数据集中寻找最低水平的细节也不有好处,但关系型数据库对于存储转化和汇总的数据更有意义。

  “结论是,为你的任何需求使用正确的技术。”他说。

  Rudin还有另外一个假设,即分析大数据的单纯行为提供有价值的见解。“问题是为无人问津的问题想出更加辉煌的答案,”他说,“要弄清楚什么是正确的问题仍然是一门艺术。”

  Facebook一直专注于聘用合适的员工来运行其分析业务,不仅要拥有统计博士学位,还要精通业务。

  “当你面试的时候,不要只关注‘我们怎么计算这个指标’”Rudin说,而是要给他们一个商业案例研究,并问他们哪些是最重要的指标。

  企业还应该尝试培养“人人分析,”Rudin表示。

  Facebook运行一个内部“数据营(data camp)”,一个两星期教导员工分析的计划。Rudin说,产品经理,设计师,工程师,甚至财务部门工作人员都出席。“人人参与其中的意义,你给大家一个数据的共同语言,他们可以用来讨论问题和难题。”他说。

  Facebook还动摇了统计人员和业务团队的组织。如果统计人员保持独立,他们往往“坐在那里等待来自业务领域的请求并回应他们”,而不是主动的。但是,如果统计人员被放置到业务单位,“你会发现多个团体试图冗余地解决问题。”他说。

  Facebook已经采用“嵌入式”的模式,把分析师放在业务团队,但他们向更高级别的分析师报告,这有助于避免重复劳动。

时间: 2024-09-25 11:29:27

Facebook谈大数据:光有Hadoop还不够的相关文章

Facebook前主管谈大数据技术趋势和演变

本文讲的是Facebook前主管谈大数据技术趋势和演变,全球系统架构师大会于8月10-12日在深圳万科国际会议中心隆重举行.首先给大家带来分享的是前Facebook数据基础设施团队主管,Qubole创始人,CEO Ashish Thusoo,他主要介绍了大数据架构以及怎么样不断的演进,与其说演进,不如说革命.其中主要包括三个方面的主题: ▲全球系统架构师大会现场报道 第一,大数据的需求.当今世界需要大数据,有哪些驱动因素促使我们不同方式考虑大数据?以不同方式处理数据. 第二,技术给我们带来哪些架

《Hadoop与大数据挖掘》——第一篇 基 础 篇 第1章 浅谈大数据 1.1 大数据概述

第一篇 基 础 篇 第1章 浅谈大数据 当你早上起床,拿起牙刷刷牙,你是否会想到从拿起牙刷到刷完牙的整个过程中有多少细胞参与其中?这些细胞在参与的过程中会结合周围环境(可能是宏观的天气.温度.气压等,可能是微观的分子.空气中的微生物等),由你的意识控制而产生不同的反映.如果我说结合这些所有的信息,可以预测你接下来的0.000 000 01秒的动作,那么,你肯定说,这我也可以预测呀.比如正常情况下,你脚抬起来走路,那么抬起来后,肯定是要落下去的,这算哪门子预测呢?那如果我说可以预测你接下来一个小时

放眼业界看得见的未来 十谈大数据时代

本文讲的是放眼业界看得见的未来 十谈大数据时代,半年前开始讨论大数据时代的到来时,大数据还只是个专业小圈子里探讨的话题.到今天大数据这个概念已经在业界内外和大众媒体上沸沸扬扬地广为传播,并不断涌现出这个方向上的努力与创新了.正所谓"历史潮流,浩浩荡荡,顺之者昌,逆之者亡",这个过去只用在政治话题上的说法借过来描述大数据时代的到来与迅猛发展的形势真是再恰当不过. 站在不同角度看大数据,它既可能是大机会,大发展,大创新,也可能是大危机,大破坏,大淘汰. 目前,最活跃的领域是网络终端创新和网

谢文:法律标准与事实标准----八谈大数据时代

中介交易 SEO诊断淘宝客 站长团购 云主机 技术大厅 苹果与三星的专利大战有了初步结果,苹果大胜,三星惨败.就像世界杯预选赛一样,这场大战是双场制,在韩国打一场,在美国打一场,以避免主场优势.在韩国打成3:3,法院判双方都有侵权行为,苹果净赔偿不过几万美元.在美国打成7:0,三星要赔苹果10亿多美元.三星发誓要上诉,但败局已定,纠缠下去可能输的更多.韩国法院象征性地在本国禁售了苹果几款过时型号的产品,苹果很可能要求在美国禁售三星的当红产品.考虑到不对称的市场规模,三星最好寻求和解.以韩国民族主

DataStax公司CEO谈大数据和云计算

本文讲的是DataStax公司CEO谈大数据和云计算,DataStax是大数据时代下诞生的创业公司,近一个月的时间里,DataStax完成了B轮1100万和C轮2500万美元的融资,成为近期大数据市场中表现最强势的公司.DataStax的CEO Billy Bosworth也是数据库技术领域的传奇人物,他拥有超过了20年的数据库市场经验,同时也在著名软件公司Quest(被Dell收购)和Embarcadero担任过管理职务. 近期,Bosworth接受了媒体的采访,他与记者探讨了关于大数据和云计

《Spark与Hadoop大数据分析》一一1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面:从数据中提取其深层次的规律性创建数据产品要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子.1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好

《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色

1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统,其核心功能取决于对数据的统计分析和机器学习的应用.Google AdWords或Facebook里的"你可能认识的人"就是数据产品的两个例子. 1.2.1 从数据分析到数据科学的根本性转变 从数据分析到数据科学的根本转变的根源,是对更准确的预测和创建更好的数据产品需求的不断增长. 让我们来

火币网徐宝龙谈大数据网络攻防与区块链

文章讲的是火币网徐宝龙谈大数据网络攻防与区块链,2017年5月11日-13日,2017中国数据库技术大会于北京国际会议中心盛大开幕.作为国内最受关注的数据库技术大会,本届大会以"数据驱动·价值发现"为主题,汇集多个领域的百余位专家,与大家共同打造一场以数据为驱动力,为企业进行价值创造的技术盛会. 在13日下午的区块链与大数据专场中,来自火币网的区块链投研中心的负责人徐宝龙为大家带来了主题演讲<大数据.网络攻防与区块链>. ▲火币网区块链研究中心负责人 徐宝龙 日前近百个国家

CNCC 人物专访 谭晓生(上)| 360 首席隐私官谈大数据与个人隐私的博弈

     现任奇虎 360 科技有限公司首席隐私官,2013 中国互联网安全大会主席. 2009 年 7 月加盟北京奇虎科技有限公司担任副总裁,负责公司网站技术.技术运维.数据分析与挖掘.云查杀.云存储等业务的技术团队管理. 1992 年毕业于西安交通大学计算机科学与工程系计算机应用专业.2003 年 1 月至今先后任 3721 技术开发总监.雅虎中国技术开发总监.雅虎中国 CTO.阿里巴巴-雅虎中国技术研发部总监.还曾任 MySpace CTO 兼任 COO. 目前还担任 CCF 副秘书长,Y