《深入理解Hadoop（原书第2版）》——1.6大数据商业用例

1.6大数据商业用例

在商业界，大数据和Hadoop都有很多应用案例。再从以下三个方面总结大数据的特征：

数据量（Volume）
处理速度（Velocity）
数据多样性（Variety）

数据量是指系统能够处理的数据量的大小。如果你们部门每天晚上都要在两个小时内获取、加载并传输2TB的数据，你就会面对数据量的挑战。

处理速度是指当大量数据来到时，系统的处理数据能力。像Facebook 和 Twitter 这样的公司就碰到了数据处理速度的问题。这些公司每秒钟都会收到海量的短信息（tiny messages），这些数据需要被立即处理，把它们发布到社交站点，推送到相关用户（家庭成员、朋友或者追随者），触发各种事件等。

数据多样性是指系统处理的数据格式类型是不停增长的。企业检索系统已经成为各企业的标配了。类似Apache Solr这样的开源软件使基于搜索的系统越来越普遍。绝大多数非结构化的数据并非孤立存在的，有大量的结构化的数据与其相关联。我们拿一个简单的电子邮件文档来举个例子。电子邮件有很多元数据与其关联，比如发送者、接收者、接收者的顺序、发送/接收时间、发送者/接收者的企业信息（比如，发送时的头衔），等等。

这些信息是动态变化的。比如，你要分析多年的电子邮件（一些法律行业的相关部门会经常有此工作内容），当发送者或者接收者第一次进行电子邮件交流的时候，搞清楚他们当时使用的头衔是很重要的。数据的这种动态变化的特性是普遍存在的，而且也是处理的难点。

利用商用软件和硬件，大数据系统能帮助我们每天的工作，比如大数据量的抽取、传输、加载（ETL）。需要强调的是，开源Hadoop系统，这个运行在多个商用服务器上，并可通过添加更多的计算节点来扩容集群的系统，可以使得ETL（或者是ELT，这个是大数据领域的通用叫法）性能在合理的代价上获得大幅提升。

为了支持更快的数据处理速度和更加多样的数据类型，围绕着Hadoop系统和HDFS系统发展出了多个开源的大数据处理系统。新的数据格式要求我们在处理大量数据的时候对系统I/O性能有更好的管理。本书将会讲解这样的开发需求存在的目的和相关用例。

Storm（由Twitter公司发起）和Apache Flume（用来分析海量日志数据信息）是专注于数据处理速度的系统。如何选择这样的系统，取决于你需要的数据处理的“实时”程度。Storm处理数据的实时性会比Flume更好。

要明确的是，大数据是一个由多个系统组成的生态系统，这些系统都是用来处理各种复杂的业务问题。Hadoop系统是处理这些问题的解决方案的核心。理解了Hadoop系统，你就能更深刻地理解大数据生态圈中其他大数据系统的使用。

时间： 2024-11-06 09:27:15

《深入理解Hadoop（原书第2版）》——1.6大数据商业用例的相关文章

《深入理解Hadoop（原书第2版）》——导读

前言 Hadoop已经进入Apache社区发展五年多了,使用Hadoop系统进行开发的工作仍然富于挑战但收获丰厚.本书第1版在若干年前就已经出版了,在这期间,Hadoop系统已经被越来越多的企业使用,自身也得到了飞速发展. Hadoop2.0基于YARN框架做了全新升级,重写了Hadoop系统的底层平台.本书从Hadoop使用者的角度出发讲解Hadoop的实现原理,浓缩了Hadoop软件系统的精华.作为作者,我们希望可以深入到源代码级别来理解Hadoop的运行原理及其背后的设计目标,渴望与你分

《机器学习与R语言（原书第2版）》一2.3　探索和理解数据

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.3节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成许金炜李舰译更多章节内容可以访问"华章计算机"公众号查看. 2.3 探索和理解数据在收集数据并把它们载入R数据结构以后,机器学习的下一个步骤是仔细检查数据.在这个步骤中,你将开始探索数据的特征和案例,并且找到数据的独特之处.你对数据的理解越深刻,你将会更好地让机器学习模型匹配你的学习问题. 理解数据探索的最好方法就是通过例子.在

《机器学习与R语言（原书第2版）》一第2章数据的管理和理解

本节书摘来自华章出版社<机器学习与R语言(原书第2版)>一书中的第2章,第2.1节,美] 布雷特·兰茨(Brett Lantz) 著,李洪成许金炜李舰译更多章节内容可以访问"华章计算机"公众号查看. 第2章数据的管理和理解任何机器学习项目初期的核心部分都是与管理和理解所收集的数据有关的.尽管你可能发现这些工作不像建立和部署模型那样令人有成就感(建立和部署模型阶段就开始看到了劳动的成果),但是忽视这些重要的准备工作是不明智的.任何学习算法的好坏取决于输入数据的好坏.

Java核心技术　卷Ⅰ　基础知识（原书第10版）

Java核心技术系列 Java核心技术卷Ⅰ 基础知识 (原书第10版) Core Java Volume I-Fundamentals (10th Edition) ［美］凯S.霍斯特曼(Cay S. Horstmann) 著周立新陈波叶乃文邝劲筠杜永萍译图书在版编目(CIP)数据 Java核心技术卷Ⅰ 基础知识(原书第10版) / (美)凯S. 霍斯特曼(Cay S. Horstmann)著:周立新等译. -北京:机械工业出版社,2016.8 (Java核心技术系列) 书

ROS机器人程序设计（原书第2版）.

机器人设计与制作系列 ROS机器人程序设计 (原书第2版) Learning ROS for Robotics Programming,Second Edition 恩里克·费尔南德斯(Enrique Fernández) 路易斯·桑切斯·克雷斯波(Luis Sánchez Crespo) 阿尼尔·马哈塔尼(Anil Mahtani) 亚伦·马丁内斯(Aaron Martinez) 著刘锦涛张瑞雷等译图书在版编目(CIP)数据 ROS机器人程序设计(原书第2版) / (西)恩里克·费尔南

《Java核心技术卷Ⅱ　高级特性（原书第10版）》一导读

前言致读者本书是按照Java SE 8完全更新后的<Java核心技术卷Ⅱ 高级特性(原书第10版)>.卷Ⅰ主要介绍了Java语言的一些关键特性:而本卷主要介绍编程人员进行专业软件开发时需要了解的高级主题.因此,与本书卷Ⅰ和之前的版本一样,我们仍将本书定位于用Java技术进行实际项目开发的编程人员. 编写任何一本书籍都难免会有一些错误或不准确的地方.我们非常乐意听到读者的意见.当然,我们更希望对本书问题的报告只听到一次.为此,我们创建了一个FAQ.bug修正以及应急方案的网站http:/

《JavaScript和jQuery实战手册（原书第3版）》---第1章编写第一个JavaScript程序 1.1 编程简介

本节书摘来自华章出版社<JavaScript和jQuery实战手册(原书第3版)>一书中的第1章,第1.1节,作者David Sawyer McFarland,姚待艳李占宣译,更多章节内容可以访问"华章计算机"公众号查看. 第1章编写第一个JavaScript程序 HTML自身并没有太多智能:它不能做数学运算,不能判断某人是否正确填写了一个表单,而且不能根据Web访问者的交互来做出判断.基本上,HTML让人们阅读文本.观看图片或视频,并且单击链接转向拥有更多文本.图片

《面向对象的思考过程（原书第4版）》一1.1　基本概念

本节书摘来自华章出版社<面向对象的思考过程(原书第4版)>一书中的第1章,第1.1节,［美］马特·魏斯费尔德(Matt Weisfeld) 著 1.1 基本概念本书主要目标是让你学会思考如何将面向对象概念应用于面向对象的系统设计中.历史上定义面向对象的语言拥有以下特点:封装(encapsulation).继承(inheritance)和多态(polymorphism).因此,如果设计一门语言时没有完全实现以上特性,那么通常我们认为该语言不是完全面向对象的.即使实现了这三点,我也往往会加入组

《用户至上：用户研究方法与实践（原书第2版）》一1.1　什么是用户体验

本节书摘来自华章出版社<用户至上:用户研究方法与实践(原书第2版)>一书中的第1章,第1.1节,作者 Understanding Your Users: A Practical Guide to User Research Methods, Second Edition凯茜·巴克斯特(Kathy Baxter)[美]凯瑟琳·卡里奇(Catherine Courage) 凯莉·凯恩(Kelly Caine)更多章节内容可以访问"华章计算机"公众号查看. 第1章用户体验入门

猜你喜欢

JUnit测试程序

程序 JUnit测试程序编写规范一. 程序命名规范 1．测试类的命名测试类的命名规则是:被测试类的类名+Test 比如有一个类叫IrgSrhDelegate,那么它的测试类的命名就是IrgSrhD ...

他们为什么要成立反百度联盟

"反百度联盟"网站的成立,使百度"光荣"地成为中国第一家"反"字头网站的宿主!反百度联盟为何一经成立,便能以一呼百应之势对百度喊出了&quo ...

ftp类（myftp.php）

class myftp { var $connector;var $getback; function connect($ftp_server, $uname, $passwd){// Baut gr ...

浅谈论坛签名外链建设容易出现的错误

论坛签名是作为我们优化人员使用最多的一种建设外链的方法之一.其能这么受到青睐的原因主要是因为其建设门槛低而且见效快,很多优化人员在接触优化的最初都是从外链建设开始的,而对于外链建设的方法又是从论坛签名 ...

如何显示或隐藏Word 2013“突出显示”标记

如果用户在Word2013文档中使用不同颜色突出显示特定文本,那么用户可以设置在Word2013页面中或打印文档时是否显示"突出显示"标记,操作步骤如下所述: 第1步,打开Word ...

机器人大战游戏代码片段

#include "graphics.h" #include "bios.h" #include "conio.h" #include &q ...

Web版本检查以及为应用程序添加声音效果

在 2003 四月的专栏文章中,你描述了如何实现一个叫 CWebVersion 的类,用它可以存取网络上的某个文件来检查软件的版本,当版本过期后提示用户更新程序.你的实现使用 FTP 来下载文件,但我 ...

Shell处理用户输入参数：getopts

特殊变量提醒: $# 记录命令行参数个数 $* 保存所有参数,并当做单个单词保存 $@ 保存所有参数,当做同一个字符串中的多个独立的单词 getopts 命令格式: getopts optstring ...

如何恢复在XP系统中损坏了的文件

问:我的电脑的操作系统是Windows XP,最近硬盘出现了故障,搞不清是物理坏道还是逻辑坏道,但可以肯定的是我存放在D盘下的一些文件被损坏了,有没有办法帮我找回这些文件呢? 答:您可以使用一些专 ...

百度指数怎么看

1.在使用百度指数之前,我们一般心中已经有确切想要搜索的词汇了.以我需要搜的"日事清"为例,大家可以看到下图所示."日事清"没有被收录,如要查看相关数据,您 ...

link环境中，ICollectio&amp;lt;T&amp;gt;和Collectio有什么区别？

问题描述 link环境中,ICollectio<T>和Collectio有什么区别? link环境中,ICollectio和Collectio有什么区别? 解决方案一个是接口一个是基类, ...

RHEL 4.7下的Oracle 10g RAC到单实例的单向同步

GG同步参考: GoldenGate配置实例:RHEL 4.7下的Oracle 10g RAC到单实例的单向同步(一) http://blog.csdn.net/wildwave/article/de ...

操作系统常见面试题（答案仅供参考）

操作系统常见面试题(答案仅供参考) 1.CPU在上电后,进入操作系统的main()之前必须做什么? 加电后,会触发CPU的reset信号,导致CPU复位,然后CPU会跳到(arm下0x00000000 ...

容错性

程序的容错性很重要. 容错性越好,兼容性就越好.比如浏览器解析css时就有很灵活的容错性.当遇到错误的css样式时就直接忽略,而不会报错.忽略错误的样式,就是容错.有什么好处呢?体现在浏览器的兼容性上 ...

visual studio-vs2013不能运行程序，求解

问题描述 vs2013不能运行程序,求解运行后就出现这个,我用的win7 解决方案先看看弹出框所示的目录中是否有这个 EXE 文件吧如果没有,则看看工程的设置项:生成文件的目录和执行文件的目录是 ...

改变计算技术的 9 个伟大算法

在过去,很多巧妙的计算机算法设计,改变了我们的计算技术.通过操作标准计算机中提供的中间运算符,可以产生很多的高效函数.这些函数导致了计算机程序的复杂性和多样性,这也是今天计算机时代快速发展的重要原因. ...

浅谈OCR之Onenote 2010

原文:浅谈OCR之Onenote 2010 上一次我们讨论了Tesseract OCR引擎的用法,作为一款老牌的OCR引擎,目前已经开源,最新版本3.0中更是加入了中文OCR功能,再加上Google的 ...

但是controller不行&quot;

问题描述请问,juint测试service层可以delete,add,但是controller不行谢谢各位大神指导! spring-hibernate.xml <context:compon ...

list 遍历过程中动态删除元素

Java list在遍历过程中动态删除元素 Java代码 if(!ValueWidget.isNullOrEmpty(videoPath)){ if(!vide ...

网上招聘站长让我哭笑不得

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅这几天急于建立一个网站因为做了一 ...

Flappy Bird作者并未真正退出江湖

Flappy Bird的作者照片中呈现出来形象,是一个发型和脸庞带着一点孩子气,但是嘴边叼着的香烟又有一点痞的感觉.他就是越南这个小国家首位明星极客他叫阮哈东. 虽然依靠Flappy Bird取得了巨 ...

如何解决点阵红外摄像机的散热问题

你知道点阵红外摄像机如何解决散热问题?中国安防网小编为你讲解一下: 1.降低电流.使用功耗小的红外灯代替大功耗的红外灯,虽然降低了散热量,但是在照射长距离的时候,效果肯定不如后者. 2.在点阵 ...

webim发送的图片，在环信服务器存放多久时间？

问题描述 webim发送的图片,在环信服务器存放多久时间? 解决方案上传图文,文件保存10天

JavaScript 异步调用框架 (Part 4 - 链式调用)_javascript技巧

现实开发中,要按顺序执行一系列的同步异步操作又是很常见的.还是用百度Hi网页版中的例子,我们先要异步获取联系人列表,然后再异步获取每一个联系人的具体信息,而且后者是分页获取的,每次请求发送10个联系人 ...

MongoDB · 最佳实践 · 短连接Auth性能优化

问题通常我们使用MongoDB的时候,客户端(driver)和MongoDB之间都是使用长连接,但是在某些场景下.某些driver仍然只能使用短连接进行连接,比如PHP.就在我们阿里云数据库Mong ...

上海威博兔年呈祥电子商务外包备受青睐

2011兔年伊始,上海威博捷报频传.继前期隆重推出"V5淘客宝"之后,上海威博电子商务外包业务也正呈现出如火如荼之雄势!近日,上海市著名商标"食家物语"所有者- ...

《Microsoft.NET企业级应用架构设计（第2版）》——导读

前言我们写这本书的主要目的是为你带来一个关于软件架构的坚实.可重用以及易于访问的知识库.在过去,我们使用Microsoft Windows DNA.分布式COM.多层CRUD.SOA.DDD.CQR ...

c++-C++对象的存储问题。希望大家帮我看看。

问题描述 C++对象的存储问题.希望大家帮我看看. 在创建若干个对象后,系统为对面分配相应的存储空间,但是只为对象中的变量和成员分配,并不会为方法分配,因为同一类的所有对象共享同一组方法,即每一种方法 ...

网站打开后跳到别人的网站上去了

问题描述一年前公司做了一个网站,当时一切正常.但是现在发现这个网站打开后会跳到别人的网站上去了,后来我进入服务器,把这个网站的域名给删掉,退出服务器再打开这个网站,竟然还能打开,而且也是别人的网站. ...

求助！pdf在线浏览思路。

问题描述现在要做过pdf在线浏览的功能,不能转成swf文件,在网页中查看pdf文件,而且客户端没有adobereader工具.客户不接受在客户端安装工具,纠结啊!求大神指点!! 解决方案解决方案二 ...

热搜