从IBM的大数据平台框架和应用程序解决方案可以看出,其中大数据平台包括4大部分:信息整合与治理组件、大数据的核心处理平台(包括基于开源Apache Hadoop的框架而实现的BigInsights平台、流计算平台、数据仓库、语境搜索等四部分)、加速器,以及包含可视化与发现、应用程序开发、系统管理的上层应用。
IBM软件集团大中华区信息管理软件总经理卢伟权
IBM软件集团大中华区信息管理软件总经理卢伟权先生表示,除了传统上提到的大数据量(Volume)、多样性(Variety)、速度(Velocity)之外,数据的真实性(Veracity)在未来的大数据应用中会越来越重要。“社交数据、企业内容、交易与应用数据等,超越传统的数据源,这些都需要有效的信息治理来确保其真实性及安全性。”他说,“IBM除了可以对传统的数据仓库和数据信息进行管控和审计,也可以对来自不同信息源的大数据信息进行真实性审核并实现有效管控,这也是IBM在业界特别强于其他厂商重要的维度。”
据悉,实现信息整合和治理的组件是Guardium,其数据治理部分有三大特色:首先,其主数据管理能够将来自不同数据来源的重复数据集中在一起管理;其次,每一个产品里面都有安全性管理;第三,通过一个整合的平台进行管理。目前,Guardium能够管理包括DB2、Netezza、Oracle、Sybase、Informix、SQLServer、SharePoint、Teradata、MySQL等在内的软件数据。
在此之上是IBM的BigInsights平台,此方案基于开源Apache Hadoop的框架实现,并增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的独特和领先的数据分析、机器学习技术以及文本数据分析挖掘。IBM表示,所有这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。“Hadoop平台上并没有相应的管理工具,也没有将不同的数据进行汇总的功能。”卢伟权说,“IBM借用过去几十年在数据库领域的经验,将数据库的管理办法也移植到大数据管理平台上,让Hadoop平台的可用性、可管理性、安全性都提高了很多。”根据不完全统计,IBM在Hadoop平台上至少新增了100个功能。
IBM大中华区软件事业部银行业解决方案高级顾问陈剑
不仅如此,BigInsights不仅支持目前最流行的x86平台,也能支持性能强劲的Power平台。“借助为Power平台优化的Linux系统,BigInsights能够在Power System上良好地运行。”卢伟权说,“这就使大数据方案在分布式处理能力的同时,还能充分享受到Power系统的高性能。”IBM大中华区软件事业部银行业解决方案高级顾问陈剑补充说,“IBM的BigInsights方案是非常开放,不仅能够支持标准Hadoop,也能支持一些主流Hadoop发行版,例如Cloudera Hadoop。这就意味着客户可以从第三方平滑地移动到IBM企业级Hadoop平台上。”作为对比,Oracle的大数据方案,明确要求应用Oracle公司优化过的Hadoop版本。
不过,“BigInsights并不是对数据仓库的替换方案,它是对传统数据仓库的一种补充和延伸,整体构成一个更广义的Internet级别的海量数据仓库。”陈剑先生说。