具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere® BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer。InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据。
如果您关注过许多围绕大数据的早期案例分析,您可能相信 “您根本不知道您不知道什么” 的说法。确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集业务洞察。公司越来越多地希望开发一个全面的信息管理战略,这个战略涉及的不仅仅是简单地探查或分析大数据。具体来讲,他们希望将大数据与现有数据系统(包括关系 DBMS、企业内容管理系统、数据仓库等)一起整合到其总体信息管理战略中。
本文分析该挑战的一个方面,列出了为大数据和传统数据源建立索引的一个架构和方法,还提供了基于 Web 的接口,以发现这些不同数据源中的新洞察。具体来讲,它描述了 Data Explorer(一个数据发现平台)如何为 InfoSphere BigInsights 管理的数据建立索引,支持将大数据的持久化格式与现有的企业数据相结合。Data Explorer 和 BigInsights 都是 IBM 的大数据平台的重要组件,所以我们首先概述此平台和这两个重要产品。
IBM 的大数据平台概述
IBM 的大数据平台旨在帮助组织探查、分析和管理丰富的数据,包括流数据、传统业务数据,以及以前很难合并到企业的商业智能和分析平台中的 “非传统” 数据或辅助数据。首先让我们简要了解一下这个平台,然后再重点介绍两个重要组件:InfoSphere Data Explorer 和 InfoSphere BigInsights。
图 1 描绘了 IBM 的大数据平台的架构,它在功能的丰富性上不同于其他商用产品。从上到下,您会看到 IBM 的这个平台包含丰富的功能和技术,能够可视化和发现各种数据源中的洞察,开发分析应用程序,管理您的环境。Data Explorer 提供了 IBM 的大数据平台的重要可视化和发现功能,所以稍后我们会更详细地讨论该组件。图 1 中所示的加速器是 IBM 提供的工具包,包含数十个预先构建的软件工件,以帮助公司快速部署分析社交媒体和机器数据(比如日志记录)的解决方案。3 个数据处理引擎使组织能够有效地应对大数据内在的多样性、大量性和高速性。这些引擎包含一个基于 Hadoop 的系统(BigInsights,我们稍后将详细探讨它)、一个流计算平台 (InfoSphere Streams) 和一个数据仓库平台(比如 PureData for Analytics 或 DB2®)。最后,IBM 的大数据平台还包含与其他流行企业软件的连接,包括关系 DBMS、提取/转换/加载平台、商业智能工具、内容管理系统等。
图 1. IBM 的大数据平台架构
InfoSphere BigInsights 概述
InfoSphere BigInsights 是 IBM 持久化和分析众多形式的大数据的平台。基于开源 Apache Hadoop 项目,BigInsights 旨在帮助公司发现和分析隐藏在海量数据中的业务洞察,这些数据在平时可能被忽略或丢弃,因为使用传统方法来处理这些数据有些不切实际或太困难。这些数据的示例包括日志记录、单击流、社交媒体数据、新闻源、电子邮件、电子传感器输出,甚至一些事务数据。
为了帮助企业高效地从这些类型的数据获取价值,BigInsights Enterprise Edition 包含一些来自 Hadoop 生态系统的开源项目,以及 IBM 开发的一些增强和扩展了这个开源软件的价值的技术。如 图 2 所示,这些技术涵盖范围从应用程序加速器到分析工具、开发工具、平台改进和企业软件集成。例如,BigInsights 客户可使用复杂的文本分析功能从文档、电子邮件和消息中提取内容和上下文。应用程序开发人员可采用基于 Eclipse 的向导来加速自定义 Java MapReduce、Jaql、Hive、Pig 和文本分析应用程序的开发。管理员可通过一个集成的 Web 控制台管理和监视其 BigInsights 环境,业务用户可通过基于 Web 的目录来启动 IBM 提供的或自行开发的应用程序。
在本文中,我们将重点介绍 BigInsights 特性的一个子集,比如文本分析和应用程序生命周期工具。
图 2. InfoSphere BigInsights 架构
InfoSphere Data Explorer 概述
InfoSphere Data Explorer 允许您为来自不同数据来源的大量结构化、非结构化和半结构化数据建立索引。它还提供了构建大数据探查应用程序和 360 度信息应用程序的能力。InfoSphere Data Explorer 允许用户根据存储在不同的内部和外部数据存储库中的庞大数据集合,创建不同实体(比如客户、产品、事件、合作伙伴等)的相关信息的视图,而无需移动数据。
当今企业的一个重要挑战是,用户无法快速找到解决业务问题或完成一项任务所需的信息。通常,数据分散在不同的系统中,以便支持不同组织管理的具体应用程序。此外,新数据来源逐渐成为关键的资源,人们可能需要在日常工作和制定重要决策时考虑它们,比如社交媒体、来自移动设备的源、Twitter 等。
这方面的一个示例是,联系人信息、购买的产品、开具的服务票据和保修信息等客户信息都存储在不同的业务应用程序中,比如 CRM、支持票据系统、市场门户等。想象一位希望联系客户以进行追加销售的销售人员。他必须先登录 10 个应用程序来汇总客户的信息,或者与 5 个人沟通来理解所有这些信息。
Data Explorer 解决了这个重要难题。信息存储在许多不同的系统和筒仓中,而用户需要采用一致的方式来查看所有数据,快速导航到与他们最相关的信息。这里的挑战是:在员工最需要制定决策的信息地方提供该信息。
图 3. InfoSphere Data Explorer 架构