如何充分利用企业Hadoop的优势

为什么商业 Hadoop 实现最适合用于企业部署?

MapReduce 实现是希望分析静止大数据的企业的首选技术。企业可以选择使用单纯的开源 MapReduce 实现(最著名的就是 Apache Hadoop),也可以选择使用商业实现。在这里,作者证明了以下情形:基于 Hadoop 的产品(比如 InfoSphere BigInsights)比不同的 Hadoop 更能满足企业需求。

分析是所有企业大数据部署的核心。关系数据库仍然是运行事务性应用程序的最佳技术(对于大多数企业当然是至关重要的),但谈到数据分析,关系数据库就显得有些压力。企业对 Apache Hadoop(或类似 Hadoop 的大数据系统)的采用反映了他们注重执行分析,而不是仅仅只注重存储事务。

要成功实现具有分析功能的 Hadoop 或类 Hadoop 系统,企业必须解决以下 4 个类别中的一些准备问题:

安全性— 预防数据盗窃和控制访问

支持— 文档和咨询

分析— 企业需要的最少的分析特性

集成— 与遗留或第三方产品集成,以实现数据迁移或数据交换

使用这 4 个类别作为比较的基础,本文将进行以下案例研究:企业为什么采用商业 Hadoop 产品(比如 InfoSphere BigInsights),而不是采用开源的 “普通” Hadoop 安装。

InfoSphere BigInsights

InfoSphere BigInsights 是 IBM 的 Hadoop 发行版。它包含核心的 Hadoop(Hadoop Distributed File System、MapReduce)功能和 Hadoop 生态系统中其他一些服务,比如 Apache Pig、Hive 和 ZooKeeper;它添加了一些出色的操作功能(比如大数据优化的压缩、工作负载管理和调度功能),以及一个应用程序开发和部署生态系统。

预防数据盗窃和控制访问

安全问题是 Hadoop 部署中的一个常见问题。根据设计,Hadoop 存储和处理来自多个来源的非结构化数据。这可能导致访问控制、数据授权和所有权问题。IT 经理需要控制对进入系统和离开系统的数据的访问。Hadoop(或类 Hadoop 环境)包含具有各种保密级别和敏感级别的数据,这一事实可能使访问控制问题恶化。最终导致数据盗窃、不当的数据访问或数据披露的风险。

数据盗窃是企业级别上的一个流行问题。企业 IT 系统经常遭受攻击。这些问题已在传统关系系统中得以解决。但为大数据系统实现解决方案有所不同,因为一些新的技术在发挥作用。默认情况下,大多数大数据系统均未对静止数据进行加密,这个问题必须首先解决。再次声明,关系系统已克服了类似问题。但考虑到类 Hadoop 系统还没有可用的集群管理工具,所以可能发生对数据文件或数据节点流程的不必要的直接访问。

此外,如果为分析而合并多个数据库,会创造了一个可能需要独立的访问控制的新数据集。现在,必须为这个数据源组合定义应用于各个数据源的角色。必须在技术或功能基础上为角色定义明确的边界。两种选择都不完美。在功能基础上建立角色可能助长对数据的窥探,但在合并了数据集后,管理员更容易实现它。技术基础可保护原始数据节点,但在合并节点后带来了访问问题。Hadoop Distributed File System (HDFS) 中内置的访问控制和安全特性无法解除这一困境。一些使用 Hadoop 的公司正在构建新环境来存储合并的数据集,或者正在通过自定义防火墙保护对合并数据的访问。

InfoSphere Guardium Data Security等产品可施以援手,确保基于 Hadoop 的系统中的数据的安全。InfoSphere Guardium Data Security 通过一些特性自动化了异构环境中的整个合规性审计流程,这些特性包括敏感数据的自动发现、自动化的合规性报告,以及数据集访问控制等。

文档和咨询

缺乏文档是另一个常见的企业问题。角色和规范不断更改,顾问和员工相继离去。除非角色和规范进行了明确备案,否则在发生变更时,许多工作必须从头开始做起。这是开源 Apache Hadoop 的一个主要问题。与此相反,专为企业设计的基于 Hadoop 的结构化产品(比如 IBM InfoSphere BigInsights)可解决此问题,提供结构化的文档和企业级支持。事实上每项针对开源 Hadoop 版本的开发都适用于 BigInsights,因为 BigInsights 构建于 Apache Hadoop 之上,而 BigInsights 在此基础上还增添了上述优势。

通过部署 InfoSphere BigInsights 这样的产品,企业能够获得外部支持所提供的优势。出于业务原因,大型企业通常仅为核心 IT 功能保留一个支持团队。受其技术经验水平的限制,复杂的部署对这些团队而言几乎是不可能完成的。一些小型公司专门致力帮助大型公司执行复杂的 Hadoop 部署。但不能依靠小型公司来提供长期支持。因为他们可能不会存在太久。

著名供应商所提供的结构化的咨询和支持解决了这些问题。可部署、跟踪和支持一个标准的 Hadoop 版本,以满足企业需求和期望。外部顾问也可承担全职员工的角色 — 但要具有合适的技能集。而且他们可应用从各行各业获得的经验和最佳实践。考虑到大数据仍然是一个缺乏专业经验的新领域,这是一项特别重要的优势。大数据咨询也可满足内部团队的培训需求,可用来充实拓展员工的技能集。咨询师支持可用于扩展项目和常规维护。

查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/webkf/tools/

时间: 2024-08-22 16:38:51

如何充分利用企业Hadoop的优势的相关文章

云上Hadoop之优势

引言 在hadoop submit world上,hadoop创始人Doug Cutting谈未来hadoop的趋势为:新硬件特别特别是大内存的使用,在云上使用大数据系统.既然未来趋势是云,那么云上肯定有一些优势.我们在之前的篇幅中讲述了 <Hadoop在云上之挑战> 那么挑战的同时,也肯定有很多的优势的.有的读者可能会问,为什么没有劣势呢?其实我在挑战中就是讲述了一些劣势,在云上又怎么解决这些问题的.以下内容不是纯技术内容,不关心的同学请谨慎阅读. 云上Hadoop的优势 如果对E-Mapr

企业抢占电子商务 优势建站走出完美第一步

企业抢占电子商务 优势建站教程教程走出完美第一步 回顾2009年,中国互联网行业发展势头十分喜人.从中国工业和信息化部发布的统计数据可以看到,2009年中国网民数达到3.84亿,净增超过8000万.而易观国际Enfodesk产业数据库教程近期发布的<2009年第四季度中国B2C网上零售市场季度监测>数据也显示了,2009年第四季度,中国B2C网上零售市场规模达79.2亿元,同比增长高达181%,网购用户规模也将突破1亿. 这些数据表明中国电子商务已经进入了快速发展阶段.中国网购市场交易规模的高

新都区充分利用互联网的传播优势,进行网络问政的浓缩反映和具体体现

"新都建设产业强区,应该打造食品.药品产业.""要打造宜居新区,应该着力搞好生态环境建设和完善的配套服务.""只有挖掘宝光寺和桂湖的底蕴,才能建好文化名区."--这些建议是近日新都市民通过网络,在"我为新都"三区"建设建言献策"大讨论暨征集活动中的留言:也是新都区充分利用互联网的传播优势,创新工作理念和思路,积极搭建有效平台,进行网络问政的浓缩反映和具体体现. 据悉,新都区注重开辟网络渠道,做到问政于民.该

呼叫中心业务外包能给企业带来哪些优势?

呼叫中心从大的方向上来讲分为自建自营型和外包型两种.其中外包型呼叫中心是指租用其他方的呼叫中心设备.座席.人员和运营管理,完成客户服务.市场营销等诸多活动的类型. 那么呼叫中心外包究竟对公司及企业有哪些优势呢,小编为你一一讲解: 1专业化 优秀的呼叫中心提供商,有多次业务重组整合的经验,新业务上线快.起点高,可确保服务质量的高水准,省去企业管理方面的烦恼,有利于简化管理体系,优化管理水平. 2灵活性 客户可得到弹性的呼叫中心,其规模可以根据企业的要求随时扩大或缩小.采取外包还可以随着运营商的技术

如何充分利用谷歌本地企业列表的优势?

对于特定的http://www.aliyun.com/zixun/aggregation/20263.html">本地搜索来说,付费列表比有机列表相关性更好.毕竟,营销商只想为相关点击付费,对于谷歌或是其它搜索引擎来说,没有一种简单的方法可以确认特定搜索查询的优化本地结果. 谷歌在圣地亚哥和旧金山启动了新的免费本地列表服务,当其向全国最终向国际市场推出这项服务时,将会对本地搜索结果产生重大影响.SERP将通过非有机列表成为市场的主导,甚至在高分辨率的浏览器中.针对本地搜索结果的1024 x

传伊利将购飞鹤完达山两企业 奶源优势或是最大吸引

蒙牛收购雅士利,为乳品行业的重组兼并大戏拉开了序幕.随后,业内传出伊利有意将奶粉企业飞鹤和完达山收入囊中的消息.虽然此"联姻"消息遭到了3家企业的公开否认,但一位接近伊利的人士在接受<http://www.aliyun.com/zixun/aggregation/5254.html">每日经济新闻>记者采访时称,在内部确有关于洽购的消息流传. 另一位接近这3家企业的业内人士向记者爆料,飞鹤与完达山近两年在向伊利提供原料粉并进行代加工,且代加工量在两家企业中占

大数据让企业掌握竞争力优势

日前,IBM大数据与分析高峰论坛在广州举行.IB M大中华区大数据和分析及新市场总经理,全球企业http://www.aliyun.com/zixun/aggregation/13807.html">咨询服务部合伙人.副总裁Jason K elley在接受南都专访时表示,企业已经逐步明确数据作为21世纪新自然资源的巨大价值.大数据与分析成为提升企业竞争力的绝对优势,进行转型和创新的巨大动力. 花费超过15亿美元 越来越多的国内外IT龙头企业以及众多创新企业开始认识到大数据的"能量

艾瑞咨询:网页游戏技术型企业具先天优势

中介交易 SEO诊断 淘宝客 云主机 技术大厅 根据ChinaVenture的数据显示,截止2008年底,有据可查的中国游戏行业投资案例共70起,通过图表可以看中,2007年前资本市场对游戏行业的关注度不高,而进入2007年后,投资量猛增,仅2007年就发生了25起投资,占投资案例总数的31.3%.2008年投资所放缓,比07年减少三起,但亦有22起. 艾瑞分析游戏行业的投资环境认为,游戏行业对投资者的吸引力正在逐步减小,主要原因是有两点: 1. 投资风险增高:中国网络游戏运营商上市企业已经10

经验之谈之Hadoop的优势及应用

在当今的技术领域,大数据是个热门的IT流行词语.为了减轻处理大量数据时的复杂度,Apache开发了Hadoop--一个可靠的.可扩展的分布式计算框架.Hadoop特别适合大数据处理任务,并且它可以利用其分布式的文件系统,可靠并且低成本的将数据块复制到集群中的节点上去,从而使数据能在本地机器上进行处理.Anoop Kumar从十个方面讲解了利用Hadoop处理大数据所需要的技巧. 对于从HDFS中导入/导出数据方面,Anoop指出,在Hadoop的世界中,数据可以从多种不同的来源中被导入到Hado