IBM杰出工程师:如何集成和治理大数据?

文章讲的是IBM杰出工程师:如何集成和治理大数据,“大数据治理”在IBM杰出工程师Ron Ben Natan博士的眼中要比传统结构化数据的治理难度大得多。他认为大数据治理既有基于传统的编程模式,又有大数据下特有的方式,是没法利用传统数据治理方式来操作的。同时,在大数据的模式下,出现大量新的数据结构和新技术,如聚合型数据结构和JSON和Avro技术等。以上种种都体现出大数据的治理更具有挑战性。

  在北京国家会议中心举办的“见智,见未来——IBM 2013技术峰会”上,IT168记者采访了IBM杰出工程师及InfoSphere Streams高级开发经理James R Giles博士、IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士、IBM软件集团大中华区信息管理软件DSCO销售总监甘佳凌,以及IBM中国开发中心资深主管经理洪桦,共同分享了IBM在大数据市场的产品策略,以及大数据集成和治理的方法。


▲IBM杰出工程师及InfoSphere Streams高级开发经理James R Giles博士

  大数据如何治理?

  在本届技术峰会上,IBM的发言人不止一次提到“大数据”。作为2013年的工作重点,IBM的业务都围绕大数据与分析展开。在IBM看来,大数据是新一代自然资源,并且是不断增长的新型资源,需要新的技术和工具,对它进行挖掘和分析。大数据也是下一代计算的新纪元,是新的计算时代。

  治理是大数据技术的重要一环,Ron Ben Natan博士认为,大数据治理就像把所有鸡蛋放在一个篮子里。并不是为了大数据才做分析处理,而是出于对商业决策起指导作用的目的。如果大数据的数据质量不高,就会面临很大风险——基于大数据得出的分析结果并不正确,直接影响到企业未来的发展。


▲IBM杰出工程师、副总裁兼Guardium首席技术官Ron Ben Natan博士

  治理的英文单词是Governance,跟政府的Government很像,因此治理会涉及到数据相关的法律法规。Ron Ben Natan博士认为,大数据的治理不能在拥有大量数据之后开始治理,而是从数据开始生成的时候就开始考虑要以大数据的方式来进行治理。由于审计或者其他原因,数据质量作为重要因素时,要对数据进行清洗。在分析和决策阶段,数据质量和数据整个生命周期的管理成为重要因素,这就是整个生命周期的大数据的治理。

  据Ron Ben Natan博士介绍,大数据阶段数据治理的方法有如下四种。第一,企业经历多年的沉淀,内部有很多数据,如何把现有的数据转成大数据?可以使用的数据集和集成需求下数据之间的转换方式,IBM可以帮助企业在现有的关系型数据和大数据的数据模型下进行自由转换。

  第二,数据屏蔽。在Hadoop大数据环境下的数据屏蔽,即数据漂白的方式。当把所有的数据放在一起,数据中很多部分跟企业和个人相关的数据是具有敏感性的,在不同的人手里这些敏感的数据用做不同的用途。如何防止这些数据流入流出的过程中敏感数据的泄露,IBM可以帮助客户把数据从现有的企业环境移植到大数据环境当中,对相应敏感的数据可以提供漂白的解决方案,从大数据环境中流出到其他的环节,或者企业现有的应用环境或者新的应用环境。这种数据也可以进行漂白的方案,能够保护企业和个人一些隐私数据不被泄露。

  第三,数据加密。尤其在大数据环境下,很多节点是物理上分布在一起,或者根本在不同的一些领域、地域,处于不同的机房和不同的阶段,如何保证这里面的数据不被非法利用。数据加密可以提供中间的透明方式,保护只有特定用户使用特定应用程序和特定方法来访问到真实的数据。

  第四,大数据Hadoop的保护。IBM在大数据保护之前,已经对现有现在市场上流行的所有数据源都提供了保护方案。基于这种保护方案基础之上对Hadoop以及IBM的BigInsights等大数据环境提供数据保护的方案。

  Ron Ben Natan博士最后总结到,IBM在2011年之前基于传统的企业数据库和数据仓库产品治理方面的组合操作,所有基于生命周期数据治理的方式。从2011年到2013年的过程当中,IBM开始积累并且建立了大数据产品治理的策略,迄今为止这是IBM最大的大数据的产品组合。未来,IBM也会尽力去投资大数据环境,尤其是NoSQL环境治理的工具和方案。

作者:小野

来源:IT168

原文链接:IBM杰出工程师:如何集成和治理大数据?

时间: 2024-07-29 03:56:30

IBM杰出工程师:如何集成和治理大数据?的相关文章

IBM推出一站式分析服务 基于AI大数据平台

9月28日消息,据计算机电脑杂志报道,从很多方面来看,大数据依然属于未充分开发的前沿领域.要想从各种字节中找出有价值的洞见,依然需要敏捷的智慧与坚持不懈的精神.IBM于周二宣布推出基于AI大数据平台的一站式分析服务,希望能够更轻松地解决这些问题.IBM宣称,与其他数据平台相比,这项服务消化吸收数据的速度更快. IBM的新服务名为Project DataWorks,是基于云计算的新平台.IBM表示,它将是第一个整合所有类型数据.并利用人工智能(AI)进行分析的平台.Project DataWork

对话IBM李红焰:“穿越”创新大数据价值(图)

数据构成了智慧地球的三大元素:物联化.互连化和智能化,这三大元素又改变了数据来源.传送方式和利用方式,带来大数据变革.自2000年以来,在IBM收购的近百家公司中,大数据及分析领域的收购就超过35家,IBM预测到2015年其在大数据分析方面的收入有望达到160亿美元.今年,IBM 更是明确了以"智慧的分析洞察"为核心的大数据战略.近日,中国计算机报社长李树翀与IBM软件集团大中华区中间件集团总经理李红焰就IBM在大数据领域的观点进行了深入交流. IBM软件集团大中华区中间件集团总经理李

国家治理大数据中心2018年前建成

2018年以前,我国将建成国家政府数据统一开放门户,推进政府和公共服务部门数据资源统一汇集和集中向社会开放,实现面向社会的政府数据资源一站式开放服务. 近日,<国家信息化发展战略纲要>由中共中央办公厅.国务院办公厅印发,明确了未来十年中国信息化发展路径,提出完善部门信息共享机制,建立国家治理大数据中心. 国家发展和改革委员会秘书长李朴民表示,政府和公共服务部门掌握着大量数据资源,是最大的信息数据生产.收集.使用和发布单位.但从目前情况来看,发挥它的更大作用还存在着一些制约,包括一些制度不完善.

IBM联手传智播客 落地大数据应用人才培养计划

日前,传智播客.北京红象云腾系统技术有限公司.北京红旗软件公司.苏州中太服务器有限公司以及IBM公司,宣布启动"百校千企"产学一体化-大数据应用人才培养联盟计划.IBM作为OpenPOWER基金会发起成员企业,积极推动了该大数据应用人才培养计划的启动. 该计划旨在联合产业.专业教育机构以及高等院校的力量,以学校为主体.以课程为核心.以云计算技术为支撑.以实战应用为目标.以合作企业为依托,多维资源整合发力,打造系统化的大数据人才培养体系.从而为院校提供切实可行的大数据人才培养解决方案,包

IBM Platform Computing 如何帮助金融行业掘金大数据

IT技术的进步.互联网的发展,衍生和扩大了许多新应用,新需求.人们的生活轨迹,工作轨迹都融入到互联网中,与之产生了各种数据,有信息.有图片.有文档.有视频,在后来网上购物,网上金融等,每个人无形中通过互联网产生了大量的数据.那么当全球数十亿人产生的数据集合起来是一个什么概念?一个任何IT企业都不敢也不能处理的数据. 今天,IBM提出的大数据的5V特点:Volume(大量).Velocity(高速).Variety(多样).Value(价值)Veracity(真实性). 同样来看金融行业,在没有I

IBM:Watson Analytics为中小企业打破大数据障碍

ZDNet至顶网软件频道消息:上周IBM发布了基于云.基于沃森认知计算平台的分析服务--Watson Analytics,被IBM定位为为普通企业用户带来大数据分析的大数据游戏规则改写者. IBM中端市场业务总经理John Mason表示:"大型公司进一步采用分析,而中小企业则落在其后.通过发布Watson Analytics,我们正在试图为企业提供分析解决方案的强大优势."   免费定价模式显然是IBM打算用于推动大数据民主化进程的战略,因为这样用户可以体验到沃森的自然语言查询和认知

投资35亿:IBM在蓉建西部最大云计算大数据中心

IBM在成都的布局再落重要一子.近日,世界500强企业IBM与四川华讯中星科技公司正式达成签约,在成都共建智慧城市云计算和大数据服务中心,该项目总投资额将达到35亿元,这也将成为西部最大的云计算和大数据中心. 据IBM相关负责人介绍,此次双方共同投资建设的云计算和大数据服务中心将落户成都,建成后将涵盖智慧医疗.智慧教育.智慧能源.云计算应用中心以及中小企业孵化等在内的多个平台,成为一个大型的综合数据处理中心,整个项目的投入将达到35亿元.据悉,在项目建成之后,将优先面向中国西部地区的政府及企事业

机制 | 治理大数据可信度价值

大数据的利用价值取决于元数据的可靠程度. 一方面,中国现阶段由于数据管理的相关法律欠缺,加之法律层面没有将企业.政府甚至个人所拥有的合法数据界定为其重要资产,并且社会文化中收集.管理数据的意识不够,不重视对数据的保存和利用,从而忽视保护数据的真实性等,以上种种原因直接导致未来使用大数据的可信度. 另一方面,大量从社交媒体.社区互动等数据源收集来的数据,本身不一定可靠.很多信息发布随意性强,公开的数据找不到数据引用来源,有些个人或企业受利益驱使,刻意伪造数据等.这些都构成大数据使用过程中的障碍.

Dropbox研发经理邵铮发表2014中国大数据技术大会开场致辞

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会在上午九点正式开始.大会程序主席,Dropbox研发经理邵铮首先介绍了大会和与会嘉宾. 大会程序主席,Dro