监控和审计IBM InfoSphere BigInsights和Cloudera Hadoop的访问权限

您也将学习一个仅适用于 IBM InfoSphere BigInsights 的快速启动监控实现。

大数据骚动主要集中在支持极限容量、速度和多样性的">基础架构和该基础架构支持的实时分析功能中。虽然像 Hadoop 这样的大数据环境是相对较新的,但事实是在大数据环境中数据安全问题的关键是预先解决。哪里有数据,哪里就有可能存在隐私泄密、非授权访问或特权用户的不恰当访问。

整个大数据环境和更多传统的大数据管理架构中应该执行相同的合规性要求,没有理由因为技术尚不成熟、正在改进就减弱数据安全性。事实上,随着大数据环境吸收的数据越来越多,组织将面临极大的存储库(数据保存在其中)风险和威胁。

如果您在组织中负责数据安全,则可能需要回答以下问题,比如:

谁正在运行特定的大数据请求?他们运行的是哪些 map-reduce 作业?他们试图下载所
有的敏感数据吗?或者这是获取客户洞察的正常市场营销查询吗? 是否具有可能是因为黑客试图通过算法访问敏感数据而造成的
大量文件权限异常? 这些作业是授权访问该数据的程序列表的一部分吗?或者已经开发了一些新应用程序而您之前并没有意识到?

您所需要的是能够将大数据应用程序和分析集成到一个现有数据安全基础架构中,而不是依赖自己开发的脚本和监控程序,自己开发脚本和监控程序可能既费力又容易出错,且常常会受到滥用。

本文将带您了解如何扩展 IBM InfoSphere Guardium V9(一个综合的数据活动监控和合规性解决方案)来包括 Hadoop 生态系统的访问监控和报告。

尽管本文包含了 InfoSphere Guardium 的高级概述,但并没有介绍如何安装和配置 InfoSphere Guardium Collector。本文将介绍如何配置 InfoSphere Guardium 以监控支持的 Hadoop 活动,并将其发送到 InfoSphere Guardium Collector 供安全分析师编制报告。您将会看到几个开箱即用的报告示例,以帮助您快速入门。

InfoSphere Guardium 简介

IBM InfoSphere Guardium 解决方案通过轻量级软件探测器连续监控数据库事务,如图 1 所示。

图 1. InfoSphere Guardium Data 活动监控

这些探测器(称为 S-TAP,用于软件)在操作系统内核级别无需依靠数据库审计日志即可监控所有数据库事务(包括特权用户的事务),这样可以确保职责分离。S-TAP 也不需要对数据库或其应用程序进行任何更改。

探测器将事务转发给网络上的一个加强的收集器(一个设备),在其中与之前定义的策略进行比较来探测违规操作。该系统可响应各种基于策略的行动,包括生成警报。

InfoSphere Guardium 支持各种各样的部署,从而支持非常大的且在地理上分散的基础架构。因为本文只是对 InfoSphere Guardium 进行了简单介绍,您可以查看 参考资料 部分来获取更多关于 InfoSphere Guardium 功能的链接。注意,并不是所有功能都可用于所有数据资源。

使用 InfoSphere Guardium 进行 Hadoop 监控的好处

使用 InfoSphere Guardium 可通过提供有针对性的、可操作的信息极大地简化您的审计就绪过程。试想一下,如果您目前的 Hadoop 审计就绪计划是基于压缩日志数据的,那么希望您永远不需要它,仅从时效性而言,您可能无法满足很多审计需求。鉴定分析毫无疑问是耗时的,而且需要浪费资源自己开发脚本,其实您更愿意将这些资源用在通过 Hadoop 创建业务优势上。

有了 InfoSphere Guardium,很多繁重的任务就可以交给您了。定义安全策略指定需要保存什么数据以及如何应对策略违规。数据事件直接写入 InfoSphere Guardium 收集器,特权用户甚至都没有机会访问并隐藏他们的踪迹。开箱即用的报告可以让您立即开始快速运行 Hadoop 监控,而且这些报告可以很容易通过定制来符合您的审计需求。

InfoSphere Guardium S-TAP 最初的设计目的是以较小的开销提高性能;毕竟,S-TAP 也用于监控产品数据库环境。有了 Hadoop,您将不太可能看到超过 3% 的开销,这对于大多数 HAdoop 工作负载来说微乎其微。

最后,InfoSphere Guardium 提供贯穿整个 Hadoop 堆栈的监控功能,从用户界面直到存储,如图 2 所示。

图 2. 整个 Hadoop 堆栈的数据活动监控的重要性

为什么这是最重要的?尽管 Hadoop 中的很多活动都分解成 MapReduce 和 HDFS 了,但是在这个级别上,您可能无法知道堆栈中级别更高的用户真正想做的是什么,或者甚至不知道用户是谁。这类似于显示一些磁盘段 I/O 操作,而不是一个数据库的审计跟踪。因此,只有提供不同级别的监控,才有可能理解活动,才能够审计直接通过堆栈中的较低点进入的活动。

Hadoop 活动监控

可被监控的事件包括:

会话和用户信息。 HDFS 操作 – 命令(cat、tail、chmod、chown、expunge,等等)。 MapReduce 作业 - 作业、操作、权限。 异常,比如授权故障。 Hive/HBase 查询 - 改变、计数、创建、删除、获取、放置、列出,等等。

以下示例描述了如何在 InfoSphere Guardium 报告中显示一些简单的 Hadoop 命令。

时间: 2024-10-23 18:41:09

监控和审计IBM InfoSphere BigInsights和Cloudera Hadoop的访问权限的相关文章

通过IBM Cognos Business Intelligence 10.2使用IBM InfoSphere BigInsights数据

大数据开辟了http://www.aliyun.com/zixun/aggregation/13782.html">业务分析的新时代.组织现在都有机会基于相关数据制定明智的决策,在过去,这些数据因为数量.周转速度和多样性等原因而不能使用. IBM 是惟一一家提供了从大数据中得出可行的见解所需的全部技术和服务的公司.通过与 IBM InfoSphere BigInsights 进行互操作,IBM Cognos Business Intelligence 现在可以轻松访问到非结构化的源数据,使

使用IBM InfoSphere BigInsights电子表格样式工具来可视化查询结果

您甚至可以看到业务分析师如何使用电子表格样式的工具来可视化查询结果. 处理大数据常常需要查询该数据,以隔离关注的信息,并以不同的方式对其进行操作.本文将向您介绍 Jaql,这是一个随 InfoSphere BigInsights 一起提供的查询和脚本语言.本文还讨论了如何查询从社交媒体站点中收集的数据,并将这些数据与从关系数据库管理系统 (DBMS) 中检索到的信息进行联接. 背景知识 也许您不熟悉 InfoSphere BigInsights,它是一个软件平台,旨在帮助企业发现和分析隐藏在不同

针对InfoSphere BigInsights的基于Eclipse工具加快应用程序开发

如果您刚接触大数据应用程序开发并且想要快速进行开发,那么您可能希望了解 IBM InfoSphere BigInsights Enterprise Edition(一个基于开源 Apache Hadoop 项目的平台)提供的工具.BigInsights Eclipse 工具包括向导.代码生成器.上下文相关的帮助,以及一种简化开发工作的测试环境.使用这些工具,您可以在 BigInsights 基于 Web 的目录中快速 "发布" 应用程序.然后,您可以使用 BigInsights Web

IBM InfoSphere MDM在复杂环境中提供数据集成流程自动化和可靠的信息

借助 IBM® InfoSphere® MDM Reference Data Management (RDM) 中心,客户可以运用主数据管理 (MDM) 方法管理自身的参考数据.RDM 中心会通过有效的集中创作和审批点来替换遍布多款应用程序的代码表筒仓.同时还会提供一些 MDM 功能,比如治理.流程.安全和审计控制. 和任何初始的 MDM 实现项目一样,人们将大部分精力用于 RDM 中心与现有的应用程序和流程的集成.整个企业 IT 基础架构的应用程序都引用了代码表.为获得主引用数据的优势,RDM

IBM Infosphere Data Replication产品族Replication Server与Change Data Cap

IBM Infosphere Data Replication产品族Replication Server与Change Data Capture的异同比较 一,简介 在如今信息快速变化的商业时代,必须在第一时间做出商业决策并采取行动才能在激烈的竞争中保持领先地位.如果商业数据不能保证同步,那么生产和利润势必会遭受损失,但是,面对信息量激增并且分布存储的特点,保证数据的可信性并非易事. IBM 的 InfoSphere Data Replication 产品族针对这一问题为应用提供了一系列数据同步

基于IBM InfoSphere DataStage和IBM InfoSphere Change Data Capture集成的解决方案

传统上,通过在非操作时间段内使用一个 ETL 流程批量处理,每年.每月或每周对http://www.aliyun.com/zixun/aggregation/8302.html">数据仓库更新一次.在今天的业务环境中,一线业务用户需要根据每小时.每分钟甚至每秒更新的信息制定决策.这些实时数据需求使得批处理窗口萎缩,并需要一个高效的解决方案来解决这个问题. IBM InfoSphere DataStage 和 IBM InfoSphere Change Data Capture 的集成是通过

使用Java编程语言构建IBM InfoSphere Streams应用程序

简介 IBM InfoSphere Streams( 以下简称 Streams) 是 IBM 于 2009 年推出的具有高可靠性,高可扩展性,分布式流计算平 台,前瞻性地把支持每秒 6G 或者每小时 21600G(相当于互联网上所有网页数量之和)数据处理能力作为系统设计的指标 ,实现了流数据"永恒分析"的能力.它包含一个运行时环境 ( 或者称为实例 ) 和编程模型来简化需要对大批量连续流数 据进行提取.过滤.分析以及关联的应用程序的开发,能够广泛的应用于制造.零售.交通运输.金融证券以

如何从 IBM InfoSphere Streams 调用 Python 代码

概述 IBM InfoSphere Streams 是一个高性能的实时事件处理中间件.它独特的优势在于能够从各种不同的数据来源获取结构化和非结构化数据,以用于执行实时分析.它通过将一种称为 SPL(Streams Processing Language,流处理语言)的易于使用的应用程序开发语言与一个分布式运行时平台相结合来完成此任务.这个中间件还提供了一个灵活的应用程序开发框架,将使用 C++ 和 Java 编写的代码集成到 Streams 应用程序中.除了 C++ 和 Java,许多构建真实

从IBM InfoSphere Streams应用程序调用Python代码

还可以在一个 Streams 应用程序的上下文内调用 Python 代码.学习如何直接从 IBM InfoSphere Streams 应用程序调用 Python 代码. IBM InfoSphere Streams 是一个高性能的实时事件处理中间件.它独特的优势在于能够从各种不同的数据来源获取结构化和非结构化数据,以用于执行实时分析.它通过将一种称为 SPL(Streams Processing Language,流处理语言)的易于使用的应用程序开发语言与一个分布式运行时平台相结合来完成此任务