Hadoop如何通过IT审计(上)?

内容:

1. 决策摘要

2. IT和企业风险环境

3. 越来越多的IT规范

4. Hadoop的职能

a. 安全

b. 灾难恢复和业务连续性

c. 资料管理:监督和法律要求

5. 额外要求

6. 关键要点

Hadoop最初并不是为企业环境所创造的,而是针对象Google, Yahoo, Facebook及Twitter等网络数据中心环境而产生的。这些公司拥有无论是架构,支持还是管理都完全不同于企业IT的网络环境。因此,Hadoop缺乏足够的功能以及内部进程来满足企业IT对安全性,可用性,数据整合以及数据管理方面的要求。

毫无疑问,在某些企业级的产业里,比如金融服务,医疗健康,医药和能源,Hadoop已经落地生根并且逐渐枝繁叶茂。绝大多数的应用都在以IT为核心的部门里,从提供和整合IT基础设施(嵌入式存储,网络传动,等等)的角度来参与。除此之外,这些“草根”级的Hadoop项目仍然位于次要地位,并没有被视为关键的产品级的IT服务。

Hadoop必须进一步成熟,才能成为有生命力的能够支持关键商业功能进行实时应用的企业平台。随着Hadoop的成熟,那些正在学习其来龙去脉的公司也同样走向成熟。企业IT将更加直接参与到管理和支持Hadoop中来 – 而这并不是一个轻而易举的过程。本质上,Hadoop必须采取IT集中化的规则,因此这个平台必须支持生产数据中心的安全水平,管理流程,数据保护和数据完整性保障,数据管理政策,尤其重要的是服务级别协议(SLAs)。

该报告有以下内容:

1. 将Hadoop置于企业IT的背景下,并帮助管理Hadoop平台使其能够担负起企业数据管理政策和流程的责任。

2. 利用上面提到过的产业部门和数据来源的信息总结概述相关的政策。

3. 描述如何能使Hadoop对企业IT基础构架,安全,审计以及监督管理负责。

4. 通过处理以上这些问题,Hadoop可以进一步深化至整个生产状况中去,包括对实时应用的支持。

IT和企业风险环境

企业IT通常致力于试图调解两种看上去相互矛盾的力量:减少风险和创造新的商机。前者是“顾后”而后者则是“瞻前”。迄今为止,对IT驱动的一种重要力量是维持已存在应用的可达性,这已经是管理风险的一个要素。即使是短期的瘫痪一个关键的应用都会造成在收入,生产率方面的损失,以及用户群体的不满意。而且对知名度高的公司来说损失尤甚 ---- 公众往往会认为这是一种“断电”。

相对而言,创造新的商机对于IT的驱动力要小很多。这其实很不幸,因为当公司缺乏投资新商机的能力时,收入增长将会很有限。没有新的应用,生意会停滞。然而IT往往忽视这一核心功能。这一现象通过遵守80/20规则的IT预算就可以看出:80%的预算都投入在维护现存设施和应用上。剩下只有20% 投入到按照优先级所列的新项目中。 IT管理员工的时间分配也是相同的规律,大部分都遵从80/20准则。

在一个企业IT预算通常随时间保持不变或缓慢增长的世界里,稍稍向新收入产生的方面多投一些预算往往会收到非常明显的回报。然而,当风险意识处于第一位时,这种调整预算平衡的做法一般都无疾而终。将更多预算引导至平衡表中机会一侧的唯一途径就是降低风险管理和维护IT现状的总成本。

在这里,我们先特别讨论一下将企业IT作为风险要素之一的规章和法律环境。接下来,我们要将对这种环境的理解应用到Hadoop这个正在被用来产生新商机的平台。最后,我们需要澄清的是,为了使Hadoop从试点项目的地位成长为产品应用的主要环境,Hadoop不能增加企业的风险性。如同其他IT产品应用和平台一样,Hadoop必须能够满足企业为了降低风险而设计和实施数据管理政策和流程的要求。不可否认,在人们了解到做不到这点已经导致超过10亿美金的罚款和赔偿金,而且一些经理们遭受牢狱之灾之前,我们所说的一切确实有点让人索然无味。但了解企业Hadoop用户的潜在风险是极其重要的。

规章和IT规则

对于IT管理人和IT审计员,尤其是那些正在试图解决规章遵守的人来说,其中一个挑战就是通常,一条规章是不足以满足IT相关事务,比如安全,记录保存,或者是业务连续性的要求的。根据产业分类,许多规章----有时甚至是相互冲突的----可以应用并导致同样的数据不仅适用于多种规章,而且是来源不同的多种规章的情况。这一点对于某些特定产业的上市公司尤为正确,这些行业同时受限于行业特定要求和证券交易委员会对所有上市交易公司的规章。随着IT逐渐成为行业部门的关键支持功能,与IT安全和持续性以及数据管理和保存有关的事务也日益增加。

在企业IT中评估规章遵从水平的最佳途径之一就是评估那些更为人所知的规章和监管机构。一些专门处理IT相关事务的机构,产业组织和立法行动参考以下列表。

规章必须实现商业风险管理的功能,而这要求额外的IT管理的投入,通常要从其他IT项目中划取预算和人力资源。然而,对不遵守规章者的惩罚对于公司和个人而言都是灾难性的,因此这方面的投资是必要的。

Hadoop需要对哪些负责?

Hadoop必须成熟以成为能够在企业里支持关键性商业应用的平台。这里所论述的成熟意味着具有能够应对IT管理员以及审计员,安全人员,尤其是记录管理员的一般要求。尤其是,Hadoop必须至少能够应付基本的企业级别安全性,灾难恢复,业务连续性以及那些可以广泛应用于实时商业功能的记录管理的要求。

安全性

以多种不同形式所体现的数据安全或许是包含在为规范特定类型数据的采集,整理和储存所实施的广泛的立法和产业行为里最常见的一种。绝大多数的规章都有针对信息安全的要求。对有权使用信息的人员的监管是最基本的要求之一。一般的要求通常包括:

1. 只允许得到授权的人员使用系统。必须执行对授权使用信息的人员的身份验证。

2. 对使用过程的审计跟踪。必须维护信息使用方面的审计跟踪日志。

HIPAA,SEC 17a-4,Sarbanes-Oxley 和 21 CFR Part 11都包含与上述两点表达类似的条例。美国大多数州已经通过立法,要求公司在信息安全遭受侵入和个人信息被泄露给窃贼或其他非授权人士的情况下向公众披露情况。此外,HIPAA对病人记录信息尤为严格。

ApacheHadoop的开发团队承认该软件缺乏自主的“线级”安全机制。他们指出,Hadoop用户有能力使用Kerberos网络协议,该协议是通过使用密钥加密和分配技术来提供身份验证。然而,使用Kerberos对于大企业和公共部门的IT管理人员来说至少有两个方面的问题。首先,登陆认证是由集中的密钥分配中心(KDC)所控制的。黑客是有可能入侵KDC并冒充任意一个授权用户的。其次,基于Kerberos的构架原理,对于Hadoop集群的每一个节点都将需要一组不同的主钥密码,这将额外增加管理的复杂度。

Hadoop所需要的是实现基于能够启动并维持安全连接机制的自主用户认证。服务器之间的通讯,包括集群节点之间的通讯和远程过程调用(RPCs),也都需要被保护。从IT运行的角度来看,自主安全应该适用于:

1. 用户操作:比如文件读写,数据库操作和MapReduce任务提交。

2. 集群内部节点间的通讯:包括远程过程调用。

3. 集群间管理:比如镜像。

因此,Hadoop安全性不应取决于KDC用户或者任何其他第三方机构的执行。如果使用自主认证密钥,Hadoop管理员应该能够凭借在集群内部和集群间使用同样的密钥来操作系统。通过对Hadoop里文件和文件夹执行全面的POSIX控制也可以解决访问控制的问题。访问控制列表(ACLs)可以被应用在:

1. 表格,列簇和列。

2. 集群和卷。

3. MapReduce任务和排队。

迄今为止,讨论集中于用户认证和访问控制。然而,静态数据安全也为越来越多的企业所关注。相应地,磁盘生产商业已提供磁盘水平的数据加密。这将有效地防止数据泄密,比如说当磁盘从服务器上拆除以后。因为大型的Hadoop用户往往需要频繁的磁盘更替,我们预期Hadoop将对磁盘水平加密使用逐步增加。

灾难恢复和业务连续性
银行和金融服务业被许多联邦,州和行业机构所监管。重大事件比如9.11和卡特里娜飓风发生后,这些监管银行和金融服务业的机构也要么要求或是强烈推荐对于IT系统的灾难恢复和业务持续性能力的实施。

医疗保健机构也将IT灾难恢复和业务连续性的能力写入规章。HIPAA要求应用应包括数据关键性分析,数据备份计划,灾难恢复计划,应急操作计划和测试及修正流程。FDA颁布的临床试验计算机系统指导原则 要求包含“在遭遇计算机系统失常时利用其它方法继续研究的应急计划,并书面记录此流程”。此外,联邦能源监管委员会(FERC)日前正在建立能源基础设施安全办公室,该办公室将负责应对一系列电力,天然气和石油运输系统的威胁,包括持续的可应用性以及失去IT系统支持时的恢复性。

原文发布时间为:2014-05-21

时间: 2024-08-30 14:54:18

Hadoop如何通过IT审计(上)?的相关文章

一个助Hadoop集群数据快速上云工具

背景 越来越多的公司和企业希望将业务迁移到云上,同时业务数据也希望能更顺畅的迁移到云上. 当前业界有很多公司是以Hadoop技术构建数据中心,所以本文将探讨如何快速的将Hadoop文件系统(HDFS)上的数据迁移到云上. 在阿里云上使用最广泛的存储服务是OSS对象存储.OSS的数据迁移工具ossimport2可以将您本地或第三方云存储服务上的文件同步到OSS上,但这个工具无法读取Hadoop文件系统的数据,无法发挥Hadoop分布式的特点.并且因为工具只支持本地文件,所以需要将HDFS上的文件先

Hadoop如何通过IT审计(下)?

内容: 1. 决策摘要 2. IT和企业风险环境 3. 越来越多的IT规范 4. Hadoop的职能 a. 安全 b. 灾难恢复和业务连续性 c. 资料管理:监督和法律要求 5. 额外要求 6. 关键要点 接上文: 在企业IT中,与植根于存储环境的企业数据管理相关的风险控制和法规遵从是非常普遍的.在该情况下,一些基本功能可以直接应用于数据之上.这些基本功能包括: 1. 数据保护.在主要存储设备或更多得是在二级存储设备上创建并维护备份文件,以保证导致数据丢失或损坏之后的恢复. 2. 本地数据复制.

【Hadoop Summit Tokyo 2016】上云还是回到服务器:混合分析一瞥

本讲义出自Keith Manthey在Hadoop Summit Tokyo 2016上的演讲,主要分享了关于混合数据分析的两种架构的迁移,对于从服务器迁移到云端和从云端迁回到服务器进行了分析介绍,并且对于数据湖泊的概念进行了介绍.

求大声解答-hadoop如何在idea上配置开发

问题描述 hadoop如何在idea上配置开发 hadoop如何实现在idea上配置开发,hadoop环境已经搭建好

【Hadoop Summit Tokyo 2016】云上Hadoop——从专家的角度解释What、Why和How

本讲义出自SATO Naoki在Hadoop Summit Tokyo 2016上的演讲,主要从What.Why和How三个角度解释了在云上应该如何使用Hadoop,在Why方面,他分享了Hadoop运行在云上的好处:在What方面,主要分享了云上Hadoop的选项以及云上的Hadoop集群以及集群定制等内容:在How方面,主要分享了如何在云上部署Hadoop架构.

云上Hadoop之优势

引言 在hadoop submit world上,hadoop创始人Doug Cutting谈未来hadoop的趋势为:新硬件特别特别是大内存的使用,在云上使用大数据系统.既然未来趋势是云,那么云上肯定有一些优势.我们在之前的篇幅中讲述了 <Hadoop在云上之挑战> 那么挑战的同时,也肯定有很多的优势的.有的读者可能会问,为什么没有劣势呢?其实我在挑战中就是讲述了一些劣势,在云上又怎么解决这些问题的.以下内容不是纯技术内容,不关心的同学请谨慎阅读. 云上Hadoop的优势 如果对E-Mapr

云上Hadoop之挑战

引言 在云上云行Hadoop,很多人担心性能.因为一提到虚拟化就会有人想到有成本,往往得出有偏见的结论-在云上运行肯定比物理机器上运行性能差.如果单独把10台物理机虚拟化跑Hadoop,这肯定是有部分性能的开销的.但是如果在公共云上,情况就不是这样了.因为公共云虚拟化的开销最终是由平台方来承担的,其一是平台方采购机器有规模优势,其二平台方可以在保证虚拟机性能的情况超卖部分资源.平台卖给用户8core32g的虚拟机就保证有这个规格的能力的.结合云上的弹性优势,企业的总体成本是会下降的. 在云上运行

基于HADOOP实现历史数据线上化

在国内银行业尚无Hadoop技术成型案例的情况下,光大银行首个基于Hadoop技术的应用试点项目--历史数据查询项目于2013年10月底成功投产上线,这是Hadoop技术在银行系统应用上的一个重要里程碑. 从硅谷到北京,从中关村到金融街,大数据的话题越来越热门,关于大数据技术的探索越来越广泛.致力于打造最具创新力银行的中国光大银行紧密跟踪业务.技术发展趋势,开展了对大数据技术的深入研讨,并尝试将大数据领域的Hadoop技术应用于银行IT系统建设.光大银行首个基于Hadoop技术的应用试点项目--

Teradata Aster在Hadoop和R上的进展

刚刚宣布放宽计算及内存限制,Aster提供R语言分析能力之后,Teradata迅速出手,宣布由Teradata实验室收购了Revelytix和Hadapt.前者主要致力于Hadoop上的数据管理,而Hadapt则是一家专注SQL-on-Hadoop的公司.显然,Teradata构建统一数据架构方面正在加速奔跑. 构建统一数据架构 事实上,结构化数据和非结构化数据通过传统的SQL分析和新的分析算法(时间序列.路径.图和文字)正在产生新的价值.为了最高效率.最优存储.分析和 应用的成本,大数据的技术