数据控使用Hadoop的三种常用方式

随着Hadoop技术的发展,从最初为Google、Facebook等公司解决大量数据的存储问题,到现在被越来越多企业用来处理大数据,Hadoop在企业数据领域影响深远。了解其常见的使用模式,可以极大地降低使用复杂性。

就在几周前,Apache Hadoop 2.0正式发布,这是 Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的“大数据”基础技术,但它是否适合当下数据库及数据仓库的使用方式?又是否有一种通用模式可以切实降低固有的使用复杂性呢?

Hadoop使用的一般模式

Hadoop最初的构想是为像Yahoo、Google、Facebook等这样的公司以非常低的成本来解决大量数据的存储问题。现在,它正被越来越多地引入企业环境中处理新不同数据类型。机器生成的数据、传感器数据、社交数据、网络日志等数据类型呈指数级增长,而且这些数据也常常(但不总是)是非结构化。正是由于这种类型的数据将人机对话从“数据分析”带到“大数据分析”:因为挖掘这些数据可以得到商业优势。

分析应用程序以各种形式流行起来,最重要的是可以定向解决一个垂直行业的需要。乍一看,他们彼此似乎在行业和垂直上没有关系,但是实际上,当在基础设施层面观察时,会出现一些非常清晰的模式,也就是以下3种模式:

Pattern 1:数据精炼厂

使用Hadoop的“数据精炼厂”模式使组织能够将这些新数据源纳入他们常用BI和分析应用程序。例如,我可能有一个应用程序,它能够在ERP和 CRM系统中查看客户建立在上面的数据。但是如何才能从他们的web session(基于我们网站)中发现他们的兴趣所在?“数据精炼厂”,这个使用模式正是顾客期望的。

数据控有三种最常用方式使用Hadoop

这里的关键概念是Hadoop是被用来提取大量数据以便更容易管理。然后生成的数据被加载到现有数据系统,这些数据可以使用传统的工具访问,但是别忘了,这些操作都是建立在更丰富的数据集上。从某些方面来说,这是最简单的用例,因为无需对传统途径进行大的修改,企业就可以清晰的从Hadoop上获益。无论垂直与否,精炼厂概念仍然适用。在金融服务领域,我们看到组织提炼交易数据以便更好地了解市场,分析和从复杂的组合中寻找价值。能源公司使用大数据来分析不同地区的消费水平以便更好地预测生产水平。零售企业(任何面向消费者组织)经常使用精炼厂来洞察网络人气。电信公司使用精炼厂调用电话记录来提取有用信息细节以便优化计费方式。最后,在昂贵的,任务关键的垂直设备上,我们常常发现Hadoop被用来预测分析和主动的故障识别。在通信技术中,这可能是一个网络的基站。特许经营餐厅中可以用来监控冷藏库的数据。

Pattern 2: 用Apache Hadoop来探索数据

第二个最常见的用例我们称之为“数据探索”。在这种情况下,组织在Hadoop上获取和存储大量的新数据,然后直接探索这些数据。因此不是使用 Hadoop作为暂存区域进行处理然后将数据转移到企业数据仓库(就像使用精炼厂用例一样),数据是保存在Hadoop上然后直接探索。

数据控有三种最常用方式使用Hadoop

数据探索用例通常是在企业开始可以探索以前被丢弃的数据(如网络日志,社交媒体数据等等)并构建全新的分析应用程序然后直接使用这些数据。几乎每一个垂直系统都可以享受到探索用例的优越性。在金融服务领域,我们可以用探索用例来执行取证或识别欺诈。职业体育团队将利用数据科学来分析交易和年度草案,就像我们在电影《Moneyball》看到的。总之数据科学和探索可以用来发现新的商业机会或新的见解,这在Hadoop之前是不可能实现的。

Pattern 3: 挖掘应用程序

第三个也是最后一个用例是“挖掘应用程序”。在这种情况下,存储在Hadoop中的数据决定了应用程序的用途。例如,通过挖掘存储的所有网络会话数据,当用户重返网站时,我们可以为他们定制个性体验。通过挖掘Hadoop中存储的这些数据,我们可以从会话历史找到很多有用的价值。比如通过用户的历史记录来提供一个及时反馈。

数据控有三种最常用方式使用Hadoop

这个用例是世界上许多大型网站如Yahoo、Facebook等业务的基础。通过定制的用户体验,他们可以有效与他们的竞争对手区分。这是雅虎 Hadoop的第二个用例,就如当初它意识到Hadoop能够帮助改善广告位置一样。这个概念转变了大型的网站,同时也正在使传统的企业改善销售,而一些小组织甚至也使用这些概念在零售网点实现动态定价。

正如你所预料的那样,随着组织熟悉在Hadoop上提炼和探索数据,最后的这种最典型的用例正在被普遍采用或接受。但与此同时,这也暗示了今后Hadoop能做什么,并且随着时间的推移和发展,传统的数据库应用程序将逐渐被Hadoop应用程序取代。

当然任何涉及到新平台技术,在进入IT企业环境时都有一定的复杂性,Hadoop也不例外。无论你是使用Hadoop来改进或是探索,还是丰富你的数据,与现有IT基础架构的兼容将是关键。这就是为什么目前Hadoop生态系统和能集成不同供应商之间解决方案得以显著增长。Hadoop有潜力在企业数据领域产生深远影响,通过理解常见的使用模式,您将可以极大地减少其复杂性。

原文发布时间为:2013-12-28

时间: 2024-09-14 12:01:58

数据控使用Hadoop的三种常用方式的相关文章

数据控使用Hadoop的三种最常用方式

就在几周前,Apache Hadoop 2.0正式发布,这是 Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命.Hadoop保留它典型的"大数据"基础技术,但它是否适合当下数据库及数据仓库的使用方式?又是否有一种通用模式可以切实降低固有的使用复杂性呢? Hadoop使用的一般模式 Hadoop最初的构想是为像Yahoo.Google.Facebook等这样的公司以非常低的成本来解决大量数据的存储问题.现在,它正被越来越多地引入企业环境中处理新不同数据类型.机器生成的

组合ASP.NET 2.0数据控件构建强大用户接口

asp.net|接口|控件|数据 在前面的几个专栏中,我们分别介绍了ASP.NET 2.0中的几个数据控件:GridView, DetailsView, 和FormView.本文,我将结合这几个数据控件对GridView控件做一个详细的介绍,使用户能够对每个数据行获得一个详细的了解. 主要控件 DetailsView 和 FormView控件在显示后端数据源中的单个记录时功能强大,但是强迫用户在一页中显示无数条记录这很不现实.为此,我们可以将GridView控件和DetailsView或Form

组合.NET数据控件构建强大用户接口

接口|控件|数据 在前面的几个专栏中,我们分别介绍了ASP.NET 2.0中的几个数据控件:GridView, DetailsView, 和FormView.本文,我将结合这几个数据控件对GridView控件做一个详细的介绍,使用户能够对每个数据行获得一个详细的了解. 主要控件 DetailsView 和 FormView控件在显示后端数据源中的单个记录时功能强大,但是强迫用户在一页中显示无数条记录这很不现实.为此,我们可以将GridView控件和DetailsView或FormView控件结合

给Gridview绑定数据,数据是存在项目里的, 求帮谢谢!运行下面代码报错:当控件被数据绑定时,无法以编程方式向 DataGridView 的行集合中添加行

问题描述 #region绑定DataGridView方法privatevoidDataGridViewBind(){DataTabledtSupplier=_SupplierFacade.GetSMSupplierContacterInfoByFid(iSupplierID);DataViewdvSupplier=dtSupplier.DefaultView;//((DataTable)dgvSupplierContInfo.DataSource).Rows.Add();dvSupplier.S

Windows 8风格应用开发入门 四 FlipView数据控件

为什么使用FlipView控件? 如果我们开发一个购物类应用,希望在产品详细页面中显示产品的多个图像,对于这种小型数据集合可以使用FlipView控件. 如果我们开发一个房地产类应用,希望针对每间房屋显示许多图像,以展示各个房间,对于这种中型数据集合可以包括FlipView控件,以便让用户可以跳转到特定的照片. 什么是FlipView控件? FlipView数据控件用来显示数据集合,用户可以通过滑动在其子窗体间切换,当然也可以点击左右或者上下两侧的切换按钮在其子窗体间切换.FlipView控件继

快速构建Windows 8风格应用4-FlipView数据控件

原文:快速构建Windows 8风格应用4-FlipView数据控件 本篇博文主要介绍为什么使用FlipView控件.什么是FlipView控件.如何使用FlipView控件和FlipView控件最佳实践.   为什么使用FlipView控件? 如果我们开发一个购物类应用,希望在产品详细页面中显示产品的多个图像,对于这种小型数据集合可以使用FlipView控件. 如果我们开发一个房地产类应用,希望针对每间房屋显示许多图像,以展示各个房间,对于这种中型数据集合可以包括FlipView控件,以便让用

2014年大数据应用:Hadoop正处于上升期

文章讲的是2014年大数据应用:Hadoop正处于上升期,根据最新的Forrest报告,有很多公司都在努力挖掘他们拥有的大量数据,包括结构化.非结构化.半结构化以及二进制数据等,探索对数据的深入利用.下面是报告结论的其中一点: 大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用.大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因.另外一个难题是如何判断数据是否有价值.尤其是在大数据时代,你必须采集并存储这些数据.一些看起来与业务无关的数据,如手机GPS数据,将来也可能是座

大数据可视化必须避免的三种常见错误

文章讲的是大数据可视化必须避免的三种常见错误,最近一段时间以来,围绕数据可视化所展开的讨论可谓层出不穷--其话题之丰富.交锋之激烈甚至不亚于大数据技术本身.目前业界普遍认为可视化是最优秀的(或者说是惟一一种)数据内容表达方式,甚至如果不对数据进行可视化处理,我们将错失大量宝贵信息. 可视化是获取并分享观点的绝佳途径,但很多大数据团队却没能选对正确的方式.可视化怎么会出现问题?原因很简单,因为存在多种可能破坏数据可视化效果的实施方式.下面我们就一同来探讨最为常见的三种错误实践. 错误一:显示所有数

面向对象之自定义数据控件

为了叙述问题的方便,我们把能与数据源绑定的可视化控件暂且称为"数据控件",它们在反映用户 需求方面有着很多类似或相通的地方,所以被归结在同一个章节中讨论. 在语言环境中提供的控件以适应性广泛为主要目标,重点是解决通用性方面的问题.当这些控件应用 于特定的操作场景时,仍然会在应用层面上产生另外一些带有普遍性的问题.之所以要提倡自定义的控件 封装,就是要基于这些问题的共性实现统筹解决.这些新问题的产生基本上来源于"汉语环境"与"信息 管理系统"两个特