InfoSphere Streams一个分析移动中的大数据平台

来自多个来源的信息正在以难以置信的速度增长。互联网用户数量在 2012 年已经达到 22.7 亿。每一天,Twitter 都会生成超过 12 TB 的 tweet,Facebook 生成超过 25 TB 日志数据,纽约证券交易所采集 1 TB 交易信息。每天会创建大约 300 亿个射频识别 (RFID) 标记。此外,每年销售的数亿台 GPS 设备,目前正在使用的超过 3000 万个连网的传感器(而且每年在以高于 30% 的速度增长),都在产生数据。这些数据量预计在未来 10 年中每 2 年就会翻一番。

一家公司在一年时间内可生成高达数 PB 的信息:网页、博客、单击流、搜索索引、社交媒体论坛、即时消息、文本消息、电子邮件、文档、用户人口统计数据、来自主动和被动系统的传感器数据,等等。许多人估计,这些数据中高达 80% 都是半结构化或非结构化数据。公司一直在寻求更加敏捷地经营业务,以更加创新的方式执行数据分析和决策流程。而且他们认识到,这些流程中损失的时间可能导致错失业务机会。大数据挑战的核心是,公司掌握轻松地分析和理解互联网级信息的能力,就像他们现在可分析和理解较少量结构化信息一样。

图 1 展示了从极大量、多样性和高速产生的上下文数据中提取洞察的大数据挑战,这在以前是无法做到的。

图 1. 大数据挑战

在 图 1 中,Volume 指数据规模,从 TB 级到 ZB 级。Variety 指许多不同结构中的数据复杂性,从关系数据到日志再到原始文本。Velocity 反映了流数据和大规模的数据移动。

IBM 正在帮助公司应对大数据挑战,为他们提供工具来集成和管理海量、高速产生的数据,应用原生格式的分析,可视化可用数据以进行专门分析,等等。本文将介绍 InfoSphere Streams,该技术支持您同时分析许多数据类型并实时执行复杂计算。您将了解 InfoSphere Streams 的工作原理,它的用途,以及如何结合使用它与另一个用于大数据分析的 IBM 产品(IBM InfoSphere BigInsights)来执行高度复杂的分析。

InfoSphere BigInsights:概述

理解 InfoSphere BigInsights 将会使您能够更全面地理解 InfoSphere Streams 的用途和价值。(如果您已熟悉 BigInsights,可跳到 下一节。)

BigInsights 是一个分析平台,可帮助公司将复杂的互联网级信息集转换为洞察。它包含一个套装的 Apache Hadoop 发行版(具有高度简化的安装流程)和用于应用程序开发、数据移动和集群管理的关联工具。得益于简单性和可伸缩性,Hadoop(MapReduce 框架的一种开源实现)在行业和学术界获得的巨大的成功。除了 Hadoop 之外,BigInsights 中的其他开源技术(除 Jaql 外的所有技术都属于 Apache Software Foundation 项目)包括:

Pig:该平台提供了一种高级语言来表达分析大数据集的程序。Pig 配备了一个编译器,可将 Pig 程序转换为 Hadoop 框架执行的 MapReduce 作业序列。 Hive:一个构建于 Hadoop 环境之上的数据仓库解决方案。它为 Hadoop 的非结构化世界带来了人们熟悉的关系数据库概念,比如表、列和分区,以及 SQL 的一个子集 (HiveQL)。Hive 查询被编译为使用 Hadoop 执行的 MapReduce 作业。 Jaql:IBM 专为 JSON(JavaScript Object Notation,JavaScript 对象表示法)开发的一种查询语言,提供了一种类似 SQL 的接口。Jaql 适度地处理嵌套,高度面向函数,而且非常灵活。它适用于松散的结构化数据,是 HBase 列存储和文本分析的接口。 HBase:一个面向列的 NoSQL 数据存储环境,旨在支持 Hadoop 中大型、稀疏填充的表。 Flume:一种分布式、可靠且可用的服务,用于高效地移动生成的大量数据。Flume 非常适合从多个系统中收集生成的日志,在它们插入 HDFS(Hadoop Distributed File System,Hadoop 分布式文件系统)。 Lucene:一个搜索引擎库,提供了高性能的、全功能的文本搜索。 Avro:一种数据序列化技术,使用 JSON 来定义数据类型和协议,以一种紧凑的二进制格式对数据执行序列化。 ZooKeeper:一种维护配置信息和命名,提供分布式同步和分组服务的集中化服务。 Oozie:一个工作流调度程序系统,用于管理和编排 Apache Hadoop 作业的执行过程。

此外,BigInsights 发行版还包含以下 IBM 独有的技术:

BigSheets:一种基于浏览器、类似电子表格的查询和探索接口,使业务用户能够轻松地收集和分析数据,利用 Hadoop 的强大功能。它提供了内置的阅读器,可处理多种常见格式的数据,包括 JSON、逗号分隔值 (CSV) 和制表符分隔值 (TSV)。 Text analytics:常见业务实体的文本注释符的一个预先构建的库。它提供了
丰富的语言和工具来构建自定义位置注释符。 Adaptive MapReduce:一个 IBM Research 解决方案,通过更改 MapReduce 任务的处理方式来加速小型 MapReduce 作业的执行。

一般来讲,BigInsights 的设计并不是为了取代一种传统的关系数据库管理系统 (DBMS) 或传统的数据仓库。具体来讲,它没有针对对表列数据结构的交互式查询、在线分析处理 (OLAP) 或在线事务处理 (OLTP) 应用程序而优化。但是,作为 IBM 大数据平台的组成部分,BigInsights 提供了与该平台的其他组件(包括数据仓库、数据集成和治理引擎)和第三方数据分析工具的潜在集成点。在本文后面将会看到,它还可与 InfoSphere Streams 集成。

时间: 2024-08-01 02:41:33

InfoSphere Streams一个分析移动中的大数据平台的相关文章

IBM推出一站式分析服务 基于AI大数据平台

9月28日消息,据计算机电脑杂志报道,从很多方面来看,大数据依然属于未充分开发的前沿领域.要想从各种字节中找出有价值的洞见,依然需要敏捷的智慧与坚持不懈的精神.IBM于周二宣布推出基于AI大数据平台的一站式分析服务,希望能够更轻松地解决这些问题.IBM宣称,与其他数据平台相比,这项服务消化吸收数据的速度更快. IBM的新服务名为Project DataWorks,是基于云计算的新平台.IBM表示,它将是第一个整合所有类型数据.并利用人工智能(AI)进行分析的平台.Project DataWork

从存储、实时、安全的角度谈如何建立完整可用的企业大数据平台

要建立一个大数据系统,我们需要从数据流的源头跟踪到最后有价值的输出,并在现有的 Hadoop 和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台.这其中既包括了对数据存储的选择,也涵盖了数据线上和线下处理分离等方面的思考和权衡.此外,没有任何一个引入大数据解决方案的商业应用在生产环境上承担的起安全隐患. 1. 计算框架篇 大数据的价值 只有在能指导人们做出有价值的决定时,数据才能体现其自身的价值.因此,大数据技术要服务于实际的用途,才是有意义的.

企查查支撑8000万+企业数据的大数据平台技术选型与实现

11+大数据行业应用实践请见https://yq.aliyun.com/activity/156,同时这里还有流计算.机器学习.性能调优等技术实践.此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps:更多精彩内容参见大数据频道:https://yq.aliyun.com/big-data . 企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习.特征

大数据平台Docker应用之路

随着大数据平台型产品方向的深入应用实践和Docker开源社区的逐渐成熟,业界有不少的大数据研发团队开始拥抱Docker.简单来说,Docker会让Hadoop平台部署更加简单快捷.让研发和测试团队集成交付更加敏捷高效.让产线环境的运维更加有质量保障,而这背后的业务场景和具体的实践方法有哪些?在Docker容器服务逐步走向完善的过程中,大数据平台产品Docker模式的应用又是如何解决的?正是本文所着重阐述的. 实践中发现问题 场景一 在大数据平台型产品的开发过程中,经常要跟许多模块打交道,包括Ha

中国电信2016年企业级大数据平台集采结果:两企业中标

中国电信日前发布公告公布2016年企业级大数据平台基础能力系统新建工程和数据安全管理系统新建工程的集采结果. 公告指出,深圳天源迪科信息技术股份有限公司中标中国电信2016年企业级大数据平台基础能力系统:上海理想信息产业(集团)有限公司中标中国电信2016年企业级大数据平台数据安全管理系统. 据了解,中国电信所有的大数据都是在云平台和云设施之上搭建的,如今其大数据平台建设从原来的5个省现在扩展到31个省,数据的种类从开始的几类主要的数据扩展到十几类,实效性是原来一周到现在小时的延时. 中国电信云

数字化转型中的大数据治理架构

大家好,我今天分享的主题是大数据治理.我们如何使用好大数据资产,才能够更好地发挥其中的价值? 主要大纲: 一.数字化时代大数据向服务化发展 二.数字化时代的大数据治理架构 三.大数据治理的12个技术原则 四.总结 一.数字化时代大数据向服务化发展 本文讲的是数字化转型中的大数据治理架构,数字化时代,我们的数据来源比以前更广了.第一,之前传统企业政府的IT系统主要是面向内部使用,产生了一些信息,现在已经面向外部使用了:第二,更多行为信息.社交信息都会变成企业的数据:第三,我们有很多非结构化的数据,

5W1H(六何分析法)全景洞察大数据

引言 5W1H(WWWWWH)分析法也叫六何分析法,是一种思考方法,也可以说是一种创造技法.我们也对大数据问些问题,相信这也是很多中小企业面临的现实问题.大数据这个词也是从12年开始慢慢热起来的,经过4年的发展,如今,很多企业已经开始有自己的大数据平台,但是对于更多的企业是没有的. 笔者也在成都的云栖大会分享了笔者的一些思考与总结,由于后续没有录像放出来,应一些朋友.同学.用户的要求,笔者直接文字写出来.文字都是笔者经过推敲写出来的,肯定要比现场讲的思路更加缜密. 最后会涉及到怎么做,如果对前面

大机会?大风险?大忽悠? ——它们有一个共同的名字叫“大数据”

导读 大数据实际上有三个主要的理解:大数据确实带来了大的机会;大数据也引来了大风险;大数据本身非常像大忽悠. 一.大数据带来大机会 各行各业突飞猛进地运用大数据 先说大数据,大数据到来之后,包括电子商务.零售企业.交通运输.信息产业.公共卫生.教育以及生产企业对零部件的监测,各个产业实际上都在突飞猛进地运用大数据.在这当中,在全球范围内形成了很多重要的案例,我简单介绍几个. 1 TARGET 在大数据领域做的最好的一个公司叫Target.它用抽样调查和大数据结合,构造了整个智能的广告推送系统,做

法国大数据:智慧城市中的大数据

1.推进力量 2013年2月,法国政府发布<数字化路线图>,列出5项将会大力支持的战略性高新技术,其中一项就是大数据.法国政府将以新兴企业.软件制造商.工程师.信息系统设计师等为目标,开展一系列的投资计划,旨在通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展. 2013年4月,法国经济.财政和工业部宣布,将投入1150万欧元用于支持7个未来投资项目,法国生产振兴部长Arnaud Montebourg.数字经济部副部长Fleur Pellerin和投资委员Louis Gall