《深入理解Hadoop(原书第2版)》——1.6大数据商业用例

1.6大数据商业用例

在商业界,大数据和Hadoop都有很多应用案例。再从以下三个方面总结大数据的特征:

  • 数据量(Volume)
  • 处理速度(Velocity)
  • 数据多样性(Variety)

数据量是指系统能够处理的数据量的大小。如果你们部门每天晚上都要在两个小时内获取、加载并传输2TB的数据,你就会面对数据量的挑战。

处理速度是指当大量数据来到时,系统的处理数据能力。像Facebook 和 Twitter 这样的公司就碰到了数据处理速度的问题。这些公司每秒钟都会收到海量的短信息(tiny messages),这些数据需要被立即处理,把它们发布到社交站点,推送到相关用户(家庭成员、朋友或者追随者),触发各种事件等。

数据多样性是指系统处理的数据格式类型是不停增长的。企业检索系统已经成为各企业的标配了。类似Apache Solr这样的开源软件使基于搜索的系统越来越普遍。绝大多数非结构化的数据并非孤立存在的,有大量的结构化的数据与其相关联。我们拿一个简单的电子邮件文档来举个例子。电子邮件有很多元数据与其关联,比如发送者、接收者、接收者的顺序、发送/接收时间、发送者/接收者的企业信息(比如,发送时的头衔),等等。

这些信息是动态变化的。比如,你要分析多年的电子邮件(一些法律行业的相关部门会经常有此工作内容),当发送者或者接收者第一次进行电子邮件交流的时候,搞清楚他们当时使用的头衔是很重要的。数据的这种动态变化的特性是普遍存在的,而且也是处理的难点。

利用商用软件和硬件,大数据系统能帮助我们每天的工作,比如大数据量的抽取、传输、加载(ETL)。需要强调的是,开源Hadoop系统,这个运行在多个商用服务器上,并可通过添加更多的计算节点来扩容集群的系统,可以使得ETL(或者是ELT,这个是大数据领域的通用叫法)性能在合理的代价上获得大幅提升。

为了支持更快的数据处理速度和更加多样的数据类型,围绕着Hadoop系统和HDFS系统发展出了多个开源的大数据处理系统。新的数据格式要求我们在处理大量数据的时候对系统I/O性能有更好的管理。本书将会讲解这样的开发需求存在的目的和相关用例。

Storm(由Twitter公司发起)和Apache Flume(用来分析海量日志数据信息)是专注于数据处理速度的系统。如何选择这样的系统,取决于你需要的数据处理的“实时”程度。Storm处理数据的实时性会比Flume更好。

要明确的是,大数据是一个由多个系统组成的生态系统,这些系统都是用来处理各种复杂的业务问题。Hadoop系统是处理这些问题的解决方案的核心。理解了Hadoop系统,你就能更深刻地理解大数据生态圈中其他大数据系统的使用。

时间: 2024-11-06 09:27:15

《深入理解Hadoop(原书第2版)》——1.6大数据商业用例的相关文章

《深入理解Hadoop(原书第2版)》——导读

前 言 Hadoop已经进入Apache社区发展五年多了,使用Hadoop系统进行开发的工作仍然富于挑战但收获丰厚.本书第1版在若干年前就已经出版了,在这期间,Hadoop系统已经被越来越多的企业使用,自身也得到了飞速发展. Hadoop2.0基于YARN框架做了全新升级,重写了Hadoop系统的底层平台.本书从Hadoop使用者的角度出发讲解Hadoop的实现原理,浓缩了Hadoop软件系统的精华.作为作者,我们希望可以深入到源代码级别来理解Hadoop的运行原理及其背后的设计目标,渴望与你分

《机器学习与R语言(原书第2版)》一2.3 探索和理解数据

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.3节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 2.3 探索和理解数据 在收集数据并把它们载入R数据结构以后,机器学习的下一个步骤是仔细检查数据.在这个步骤中,你将开始探索数据的特征和案例,并且找到数据的独特之处.你对数据的理解越深刻,你将会更好地让机器学习模型匹配你的学习问题. 理解数据探索的最好方法就是通过例子.在

《机器学习与R语言(原书第2版)》一 第2章 数据的管理和理解

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.1节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成 许金炜 李舰 译更多章节内容可以访问"华章计算机"公众号查看. 第2章 数据的管理和理解 任何机器学习项目初期的核心部分都是与管理和理解所收集的数据有关的.尽管你可能发现这些工作不像建立和部署模型那样令人有成就感(建立和部署模型阶段就开始看到了劳动的成果),但是忽视这些重要的准备工作是不明智的.任何学习算法的好坏取决于输入数据的好坏.

Java核心技术 卷Ⅰ 基础知识(原书第10版)

Java核心技术系列 Java核心技术 卷Ⅰ 基础知识 (原书第10版) Core Java Volume I-Fundamentals (10th Edition) [美] 凯S.霍斯特曼(Cay S. Horstmann) 著 周立新 陈 波 叶乃文 邝劲筠 杜永萍 译 图书在版编目(CIP)数据 Java核心技术 卷Ⅰ 基础知识(原书第10版) / (美)凯S. 霍斯特曼(Cay S. Horstmann)著:周立新等译. -北京:机械工业出版社,2016.8 (Java核心技术系列) 书

ROS机器人程序设计(原书第2版).

机器人设计与制作系列 ROS机器人程序设计 (原书第2版) Learning ROS for Robotics Programming,Second Edition 恩里克·费尔南德斯(Enrique Fernández) 路易斯·桑切斯·克雷斯波(Luis Sánchez Crespo) 阿尼尔·马哈塔尼(Anil Mahtani) 亚伦·马丁内斯(Aaron Martinez) 著 刘锦涛 张瑞雷 等译 图书在版编目(CIP)数据 ROS机器人程序设计(原书第2版) / (西)恩里克·费尔南

《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一导读

前 言 致读者 本书是按照Java SE 8完全更新后的<Java核心技术 卷Ⅱ 高级特性(原书第10版)>.卷Ⅰ主要介绍了Java语言的一些关键特性:而本卷主要介绍编程人员进行专业软件开发时需要了解的高级主题.因此,与本书卷Ⅰ和之前的版本一样,我们仍将本书定位于用Java技术进行实际项目开发的编程人员. 编写任何一本书籍都难免会有一些错误或不准确的地方.我们非常乐意听到读者的意见.当然,我们更希望对本书问题的报告只听到一次.为此,我们创建了一个FAQ.bug修正以及应急方案的网站http:/

《JavaScript和jQuery实战手册(原书第3版)》---第1章 编写第一个JavaScript程序 1.1 编程简介

本节书摘来自华章出版社<JavaScript和jQuery实战手册(原书第3版)>一书中的第1章,第1.1节,作者David Sawyer McFarland,姚待艳 李占宣 译,更多章节内容可以访问"华章计算机"公众号查看. 第1章 编写第一个JavaScript程序 HTML自身并没有太多智能:它不能做数学运算,不能判断某人是否正确填写了一个表单,而且不能根据Web访问者的交互来做出判断.基本上,HTML让人们阅读文本.观看图片或视频,并且单击链接转向拥有更多文本.图片

《面向对象的思考过程(原书第4版)》一1.1 基本概念

本节书摘来自华章出版社<面向对象的思考过程(原书第4版)>一书中的第1章,第1.1节,[美] 马特·魏斯费尔德(Matt Weisfeld) 著 1.1 基本概念 本书主要目标是让你学会思考如何将面向对象概念应用于面向对象的系统设计中.历史上定义面向对象的语言拥有以下特点:封装(encapsulation).继承(inheritance)和多态(polymorphism).因此,如果设计一门语言时没有完全实现以上特性,那么通常我们认为该语言不是完全面向对象的.即使实现了这三点,我也往往会加入组

《用户至上:用户研究方法与实践(原书第2版)》一1.1 什么是用户体验

本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第1章,第1.1节,作者 Understanding Your Users: A Practical Guide to User Research Methods, Second Edition凯茜·巴克斯特(Kathy Baxter)[美]凯瑟琳·卡里奇(Catherine Courage) 凯莉·凯恩(Kelly Caine)更多章节内容可以访问"华章计算机"公众号查看. 第1章 用户体验入门