Hadoop平台管理的大数据建立索引的方法和指南

具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere® BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer。InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据。

如果您关注过许多围绕大数据的早期案例分析,您可能相信 “您根本不知道您不知道什么” 的说法。确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集业务洞察。公司越来越多地希望开发一个全面的信息管理战略,这个战略涉及的不仅仅是简单地探查或分析大数据。具体来讲,他们希望将大数据与现有数据系统(包括关系 DBMS、企业内容管理系统、数据仓库等)一起整合到其总体信息管理战略中。

本文分析该挑战的一个方面,列出了为大数据和传统数据源建立索引的一个架构和方法,还提供了基于 Web 的接口,以发现这些不同数据源中的新洞察。具体来讲,它描述了 Data Explorer(一个数据发现平台)如何为 InfoSphere BigInsights 管理的数据建立索引,支持将大数据的持久化格式与现有的企业数据相结合。Data Explorer 和 BigInsights 都是 IBM 的大数据平台的重要组件,所以我们首先概述此平台和这两个重要产品。

IBM 的大数据平台概述

IBM 的大数据平台旨在帮助组织探查、分析和管理丰富的数据,包括流数据、传统业务数据,以及以前很难合并到企业的商业智能和分析平台中的 “非传统” 数据或辅助数据。首先让我们简要了解一下这个平台,然后再重点介绍两个重要组件:InfoSphere Data Explorer 和 InfoSphere BigInsights。

图 1 描绘了 IBM 的大数据平台的架构,它在功能的丰富性上不同于其他商用产品。从上到下,您会看到 IBM 的这个平台包含丰富的功能和技术,能够可视化和发现各种数据源中的洞察,开发分析应用程序,管理您的环境。Data Explorer 提供了 IBM 的大数据平台的重要可视化和发现功能,所以稍后我们会更详细地讨论该组件。图 1 中所示的加速器是 IBM 提供的工具包,包含数十个预先构建的软件工件,以帮助公司快速部署分析社交媒体和机器数据(比如日志记录)的解决方案。3 个数据处理引擎使组织能够有效地应对大数据内在的多样性、大量性和高速性。这些引擎包含一个基于 Hadoop 的系统(BigInsights,我们稍后将详细探讨它)、一个流计算平台 (InfoSphere Streams) 和一个数据仓库平台(比如 PureData for Analytics 或 DB2®)。最后,IBM 的大数据平台还包含与其他流行企业软件的连接,包括关系 DBMS、提取/转换/加载平台、商业智能工具、内容管理系统等。

图 1. IBM 的大数据平台架构

InfoSphere BigInsights 概述

InfoSphere BigInsights 是 IBM 持久化和分析众多形式的大数据的平台。基于开源 Apache Hadoop 项目,BigInsights 旨在帮助公司发现和分析隐藏在海量数据中的业务洞察,这些数据在平时可能被忽略或丢弃,因为使用传统方法来处理这些数据有些不切实际或太困难。这些数据的示例包括日志记录、单击流、社交媒体数据、新闻源、电子邮件、电子传感器输出,甚至一些事务数据。

为了帮助企业高效地从这些类型的数据获取价值,BigInsights Enterprise Edition 包含一些来自 Hadoop 生态系统的开源项目,以及 IBM 开发的一些增强和扩展了这个开源软件的价值的技术。如 图 2 所示,这些技术涵盖范围从应用程序加速器到分析工具、开发工具、平台改进和企业软件集成。例如,BigInsights 客户可使用复杂的文本分析功能从文档、电子邮件和消息中提取内容和上下文。应用程序开发人员可采用基于 Eclipse 的向导来加速自定义 Java MapReduce、Jaql、Hive、Pig 和文本分析应用程序的开发。管理员可通过一个集成的 Web 控制台管理和监视其 BigInsights 环境,业务用户可通过基于 Web 的目录来启动 IBM 提供的或自行开发的应用程序。

在本文中,我们将重点介绍 BigInsights 特性的一个子集,比如文本分析和应用程序生命周期工具。

图 2. InfoSphere BigInsights 架构

InfoSphere Data Explorer 概述

InfoSphere Data Explorer 允许您为来自不同数据来源的大量结构化、非结构化和半结构化数据建立索引。它还提供了构建大数据探查应用程序和 360 度信息应用程序的能力。InfoSphere Data Explorer 允许用户根据存储在不同的内部和外部数据存储库中的庞大数据集合,创建不同实体(比如客户、产品、事件、合作伙伴等)的相关信息的视图,而无需移动数据。

当今企业的一个重要挑战是,用户无法快速找到解决业务问题或完成一项任务所需的信息。通常,数据分散在不同的系统中,以便支持不同组织管理的具体应用程序。此外,新数据来源逐渐成为关键的资源,人们可能需要在日常工作和制定重要决策时考虑它们,比如社交媒体、来自移动设备的源、Twitter 等。

这方面的一个示例是,联系人信息、购买的产品、开具的服务票据和保修信息等客户信息都存储在不同的业务应用程序中,比如 CRM、支持票据系统、市场门户等。想象一位希望联系客户以进行追加销售的销售人员。他必须先登录 10 个应用程序来汇总客户的信息,或者与 5 个人沟通来理解所有这些信息。

Data Explorer 解决了这个重要难题。信息存储在许多不同的系统和筒仓中,而用户需要采用一致的方式来查看所有数据,快速导航到与他们最相关的信息。这里的挑战是:在员工最需要制定决策的信息地方提供该信息。

图 3. InfoSphere Data Explorer 架构

时间: 2024-10-26 12:38:52

Hadoop平台管理的大数据建立索引的方法和指南的相关文章

IBM面向Hadoop的PureData推大数据机

随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显.为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求. IBM软件信息管理部门总经理Bob Picciano表示: 企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用. 在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visi

完善立法和规范管理 实现大数据开放共享

■ 主持人:尹传刚 (深圳特区报评论员) ■ 嘉 宾:刘国强(四川外国语大学新闻与传播学院教授) 李长安(对外经济贸易大学公共管理学院教授.博士生导师) 张敬伟(中国人民大学重阳金融研究院客座研究员) 加快大数据部署,深化大数据应用,已成为稳增长.促改革.调结构.惠民生和推动政府治理能力现代化的内在需要和必然选择 主持人:大数据产业是互联网经济背景下一种典型的新产业.新业态.发展大数据产业,为何重要? 李长安:大数据实际上是互联网经济乃至整个国民经济的一个基础性产业.对于政府来说,数据已成为一种

中国联通赵越:打通数据源到数据应用,大平台模式发展大数据

从共同意识的"大爆炸",到打开应用大门,大数据风暴已经席卷到生活的各个角落,不仅是是一场技术革命,也是一场经济变革,更是社会治理的变革.运营商大数据在数据集中.应用探索的基础上,正在走向基于专业化.市场化.公司化的实践和运作阶段.用大平台模式发展大数据,为社会创造价值,成为国家产业升级和经济转型的新动能. 在"517世界电信和信息社会日主题论坛"上,中国联通宽带在线有限公司副总经理赵越在发言中表示:"在政策与市场的双重驱动下,运营商有如抓住微笑曲线的两端,

国内首个Hadoop一站式产品 直面大数据

本文讲的是国内首个Hadoop一站式产品 直面大数据,2012年5月31日消息,精诚集团今天正式发布Big Data解决方案品牌Etu.作为国内首个基于Hadoop的Appliance产品,Etu能够为用户提供软硬结合的端到端的大数据一体化解决方案,协助企业从每天大量涌现的数据中发掘商业智能,找出更多潜在的商机.精诚云中心暨Etu负责人蒋居裕.中科院计算所.Hadoop China的发起人查礼博士.Etu首席顾问陈昭宇出席了发布会,并发表主题演讲,介绍了Etu产品特点.大数据发展对企业的影响,以

云平台上的大数据移动医疗专家

睿峰移动医疗平台是基于云端的健康管理系统,基于大数据采集和智能分析,引入家庭医生概念,为用户提供健康咨询.健康管理.疾病预防和为医生诊断提供专业数据分析等服务.并通过与国内多家三甲医院及保险公司合作,形成从健康检查.风险干预到健康管理为一体的大数据健康体系,从而达到促进和改善健康的目的.此外,睿峰移动医疗平台采集的大量健康数据信息,也将成为医疗研究.疾病预防.预测等工作的基础数据来源. 跨界传输国际领先的移动健康管理理念 在跨界为王的移动互联网时代,睿峰基于在医疗和移动互联领域的信息和技术积累,

CRM(客户关系管理)的大数据时代

CRM(客户关系管理)的大数据"黄金"时代 在大数据时代,CRM(客户关系管理)不仅可以帮助企业获得客户资源,还能加强整个供应链的共生关系.但面对越来越多企业对大数据需求的挑战,BI处理数据性能的技术奖成为应对大数据的关键. 企业软件并非新鲜事物,在国际上一直都是一个非常大的市场,例如微软.Oracle.IBM.Salesforce.CloudCC CRM等都是非常大的企业软件公司. 但在中国却没有特别大的企业软件公司,这主要由两方面原因造成:一是过去中国劳动力成本很低,使用企业软件的

睿峰----云平台上的大数据移动医疗专家

8月初,继特斯拉.中国人寿.中国工商银行等跨界合作后,睿峰科技重磅推出基于云端的大数据移动医疗平台,将大数据及跨界合作的"触角"延伸至医疗领域.引领国内移动互联行业发展趋势的跨界合作之王--睿峰科技的此举,在业内引起了不小的反响.就该平台的相关情况,记者专程采访了睿峰相关负责人. 睿峰移动医疗平台是基于云端的健康管理系统,基于大数据采集和智能分析,引入家庭医生概念,为用户提供健康咨询.健康管理.疾病预防和为医生诊断提供专业数据分析等服务.并通过与国内多家三甲医院及保险公司合作,形成从健

卢东明:Hadoop不能适用所有大数据场

文章讲的是卢东明:Hadoop不能适用所有大数据场,"大数据"自诞生之日起,业界对它的概念.技术和应用就存在一定争议.究竟什么是大数据?有哪些大数据技术?大数据的未来是怎样的?每个人都有自己的理解.在2013大数据产品评选活动举办之际,笔者采访了此次担任评委的几位专家学者,看看专家眼中的"大数据"是什么样的? 近日,在一次微访谈活动中,SAP亚太区数据库解决方案技术总监卢东明回答了笔者的提问,分享了对大数据的几点看法,笔者整理如下: ▲SAP亚太区数据库解决方案技术

大量数据-solr设计大数据量索引删除问题

问题描述 solr设计大数据量索引删除问题 solr索引了大量数据,随着时间的累积,数据量越来越大,根据时间来删除历史数据,用deletebyquery来删除的话 ,执行时间过长,最后optimize的时间也很长,易用性不是很好.有什么好的方法来解决删除历史索引这个问题吗?