超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润
译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。

你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(SAS)”,后来该项目独立出来成立了SAS公司。术语analysisanalytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(BI)在商业环境的数据分析中也经常提到,可能最早见于Peter Luhn的一篇论文(Luhn 1958)。许多BI应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

术语大数据似乎首先被John R. Mashey使用,后来硅谷图形公司(SGI)在一份在USENIX(UNIX用户协会)会议邀请报告的标题叫做“大数据与下一代基础架构压力”,它的副本可从http://static.usenix.

org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中(Bryson等 1999年)。来自META集团(如今的Gartner)的一份报告首次确认3V(大量、多样、快速,译者注:原谅是Volume variety velocity)为大数据的特征。谷歌关于MapReduce的论文(MR; Dean Ghemawat 2004)触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知,但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现,一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop,包括MR实现与Hadoop分布式文件系统(HDFS),如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则,例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施。 

时间: 2025-01-07 11:51:53

超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce的相关文章

颠覆大数据分析之第二章结束语

颠覆大数据分析之第二章结束语 译者:黄经业    购书 本章讨论了一些业务场景,以及它们在BDAS框架中的实现.同时还介绍了什么是BDAS框架,并重点介绍了Spark, Shark,以及Mesos.Spark在那些涉及到优化的场景中非常有用--比如说Ooyala希望基于约束条件来动态地选择最优的CDN,以便提升视频的用户体验.必须注意的是,正如第一章所说的,众所周知,约束及变量过多的优化问题是很难在Hadoop MR中解决的.随机法要更适合Hadoop.不过你应当时刻牢记一点,Hadoop很难解

《Hadoop金融大数据分析》读书笔记

<Hadoop金融大数据分析> Hadoop for Finance Essentials 使用Hadoop,是因为数据量大数据量如此之多,以至于无法用传统的数据处理工具和应用来处理的数据称主大数据 3V定义:即"大量Volume,多样Variety,高速Velocity是与大数据相关的三个属性或维度.大量指的是数据的量很大,多样指的是数据的类型很多,高速指的是数据处理的速度很快 对于一家处理GB级数据的小公司来说,TB级的数据可能被认为是大数据,对于处理TB级数据的大公司来说,PB

超越Hadoop的大数据分析之前言

本文翻译自<BIG DATA ANALYTICS BEYOND HADOOP>译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了.考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年.Yahoo!于2006年发起Hadoop项目.MR是基于十年前的数据中心的经济上的考虑.从那时以来,已经有太多的东西发生了变化:多核心处理器.大内

《Hadoop与大数据挖掘》——第一篇 基 础 篇 第1章 浅谈大数据 1.1 大数据概述

第一篇 基 础 篇 第1章 浅谈大数据 当你早上起床,拿起牙刷刷牙,你是否会想到从拿起牙刷到刷完牙的整个过程中有多少细胞参与其中?这些细胞在参与的过程中会结合周围环境(可能是宏观的天气.温度.气压等,可能是微观的分子.空气中的微生物等),由你的意识控制而产生不同的反映.如果我说结合这些所有的信息,可以预测你接下来的0.000 000 01秒的动作,那么,你肯定说,这我也可以预测呀.比如正常情况下,你脚抬起来走路,那么抬起来后,肯定是要落下去的,这算哪门子预测呢?那如果我说可以预测你接下来一个小时

《R与Hadoop大数据分析实战》一2.3 Hadoop MapReduce原理

2.3 Hadoop MapReduce原理 为了更好地理解MapReduce的工作原理,我们将会: 学习MapReduce对象. MapReduce中实现Map阶段的执行单元数目. MapReduce中实现Reduce阶段的执行单元数目. 理解MapReduce的数据流. 深入理解Hadoop MapReduce. 2.3.1 MapReduce对象 由Hadoop的MapReduce技术可以引申出如下3个主要对象: Mapper:它主要用于实现MapReduce的Map阶段的操作.该对象在M

《Spark与Hadoop大数据分析》一一2.1 Apache Hadoop概述

2.1 Apache Hadoop概述 Apache Hadoop 是一个软件框架,可以在具有数千个节点和 PB 级数据的大型集群上进行分布式处理.Apache Hadoop 集群可以使用故障率一般较高的低价通用硬件来构建.Hadoop 的设计能够在没有用户干预的情况下优雅地处理这些故障.此外,Hadoop 采用了让计算贴近数据(move computation to the data)的方法,从而显著降低了网络流量.它的用户能够快速开发并行的应用程序,从而专注于业务逻辑,而无需承担分发数据.分

如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势.网站访问和习惯.客户审查数据等等;那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Linke

《Spark与Hadoop大数据分析》一一2.4 安装 Hadoop 和 Spark 集群

2.4 安装 Hadoop 和 Spark 集群 在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本.在 Cloudera.Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的.在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0.但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步.对于后续章节的实践练习,我们会使用来自 Clou

掌握方法 如何利用Hadoop廉价大数据分析

大数据将成为本年度的云计算.这是必然发生的结果:随着时间的推移,企业产生的数据集已经越来越大了,这些数据包括客户购买偏好趋势.网站访问和习惯.客户审查数据等等:那么您怎样才能把这么大量的数据整理成综合形式呢?传统的商业智能(BI)工具(关系型数据库和桌面数学计算包)在处理企业这么大量的数据时已经有点不够用了.当然,数据分析行业也有开发工具和框架,支持数据研究人员和分析师们挖掘大数据集,并能承受得了信息负载. 对于较大的公司来说,海量数据处理已经不是什么新鲜东西了.例如,Twitter和Linke