为什么商业 Hadoop 实现最适合用于企业部署?
MapReduce 实现是希望分析静止大数据的企业的首选技术。企业可以选择使用单纯的开源 MapReduce 实现(最著名的就是 Apache Hadoop),也可以选择使用商业实现。在这里,作者证明了以下情形:基于 Hadoop 的产品(比如 InfoSphere BigInsights)比不同的 Hadoop 更能满足企业需求。
分析是所有企业大数据部署的核心。关系数据库仍然是运行事务性应用程序的最佳技术(对于大多数企业当然是至关重要的),但谈到数据分析,关系数据库就显得有些压力。企业对 Apache Hadoop(或类似 Hadoop 的大数据系统)的采用反映了他们注重执行分析,而不是仅仅只注重存储事务。
要成功实现具有分析功能的 Hadoop 或类 Hadoop 系统,企业必须解决以下 4 个类别中的一些准备问题:
安全性— 预防数据盗窃和控制访问
支持— 文档和咨询
分析— 企业需要的最少的分析特性
集成— 与遗留或第三方产品集成,以实现数据迁移或数据交换
使用这 4 个类别作为比较的基础,本文将进行以下案例研究:企业为什么采用商业 Hadoop 产品(比如 InfoSphere BigInsights),而不是采用开源的 “普通” Hadoop 安装。
InfoSphere BigInsights
InfoSphere BigInsights 是 IBM 的 Hadoop 发行版。它包含核心的 Hadoop(Hadoop Distributed File System、MapReduce)功能和 Hadoop 生态系统中其他一些服务,比如 Apache Pig、Hive 和 ZooKeeper;它添加了一些出色的操作功能(比如大数据优化的压缩、工作负载管理和调度功能),以及一个应用程序开发和部署生态系统。
预防数据盗窃和控制访问
安全问题是 Hadoop 部署中的一个常见问题。根据设计,Hadoop 存储和处理来自多个来源的非结构化数据。这可能导致访问控制、数据授权和所有权问题。IT 经理需要控制对进入系统和离开系统的数据的访问。Hadoop(或类 Hadoop 环境)包含具有各种保密级别和敏感级别的数据,这一事实可能使访问控制问题恶化。最终导致数据盗窃、不当的数据访问或数据披露的风险。
数据盗窃是企业级别上的一个流行问题。企业 IT 系统经常遭受攻击。这些问题已在传统关系系统中得以解决。但为大数据系统实现解决方案有所不同,因为一些新的技术在发挥作用。默认情况下,大多数大数据系统均未对静止数据进行加密,这个问题必须首先解决。再次声明,关系系统已克服了类似问题。但考虑到类 Hadoop 系统还没有可用的集群管理工具,所以可能发生对数据文件或数据节点流程的不必要的直接访问。
此外,如果为分析而合并多个数据库,会创造了一个可能需要独立的访问控制的新数据集。现在,必须为这个数据源组合定义应用于各个数据源的角色。必须在技术或功能基础上为角色定义明确的边界。两种选择都不完美。在功能基础上建立角色可能助长对数据的窥探,但在合并了数据集后,管理员更容易实现它。技术基础可保护原始数据节点,但在合并节点后带来了访问问题。Hadoop Distributed File System (HDFS) 中内置的访问控制和安全特性无法解除这一困境。一些使用 Hadoop 的公司正在构建新环境来存储合并的数据集,或者正在通过自定义防火墙保护对合并数据的访问。
InfoSphere Guardium Data Security等产品可施以援手,确保基于 Hadoop 的系统中的数据的安全。InfoSphere Guardium Data Security 通过一些特性自动化了异构环境中的整个合规性审计流程,这些特性包括敏感数据的自动发现、自动化的合规性报告,以及数据集访问控制等。
文档和咨询
缺乏文档是另一个常见的企业问题。角色和规范不断更改,顾问和员工相继离去。除非角色和规范进行了明确备案,否则在发生变更时,许多工作必须从头开始做起。这是开源 Apache Hadoop 的一个主要问题。与此相反,专为企业设计的基于 Hadoop 的结构化产品(比如 IBM InfoSphere BigInsights)可解决此问题,提供结构化的文档和企业级支持。事实上每项针对开源 Hadoop 版本的开发都适用于 BigInsights,因为 BigInsights 构建于 Apache Hadoop 之上,而 BigInsights 在此基础上还增添了上述优势。
通过部署 InfoSphere BigInsights 这样的产品,企业能够获得外部支持所提供的优势。出于业务原因,大型企业通常仅为核心 IT 功能保留一个支持团队。受其技术经验水平的限制,复杂的部署对这些团队而言几乎是不可能完成的。一些小型公司专门致力帮助大型公司执行复杂的 Hadoop 部署。但不能依靠小型公司来提供长期支持。因为他们可能不会存在太久。
著名供应商所提供的结构化的咨询和支持解决了这些问题。可部署、跟踪和支持一个标准的 Hadoop 版本,以满足企业需求和期望。外部顾问也可承担全职员工的角色 — 但要具有合适的技能集。而且他们可应用从各行各业获得的经验和最佳实践。考虑到大数据仍然是一个缺乏专业经验的新领域,这是一项特别重要的优势。大数据咨询也可满足内部团队的培训需求,可用来充实拓展员工的技能集。咨询师支持可用于扩展项目和常规维护。
查看本栏目更多精彩内容:http://www.bianceng.cnhttp://www.bianceng.cn/webkf/tools/