大数据分析之数据孤岛:你能看到它们吗?

从企业和CIO们开始尝试数据挖掘以来,数据孤岛就一直阻碍着商业智能效能的提高。数据孤岛,换句话说昂贵的、需要费尽心血维护却彼此无法兼容的数据库,指望从它们那儿发掘到伟大的知识,无疑于缘木求鱼。也就是说,数据库的数量和挖掘到的知识产量没有任何关系。正如一位商业智能专家所说的,进进出出的都是垃圾。

谈到大数据分析-或者叫数据3V(类别、数量和增长率),则是个将大多数公司窒息的流行语。因为,据分析师Ted Friedman说,数据孤岛整指数般的蔓延-就像瘟疫一样。

“在你的公司,任何时间任何地方,都有数据孤岛的存在。从大数据的角度看,简直整个宇宙都充斥着数据孤岛-在防火墙里,在web上,在‘云’端,还有那些属于其他企业、客户和供应商的却在你这儿出现的数据,”Gartner主持信息管理咨询的Friedman说道,“所有这些使得你更难打破数据孤岛来挖掘有意义的知识信息。”

那么,CIO在诠释大数据的过程中能起到什么作用呢?和企业遇到的其他IT挑战一样,这个难题及其解决之道也围绕着人才、流程和技术而展开。CIO不仅需要为为员工培养新技能(包括招募数据科学家、分析师和架构师等),而且需要说服高层:大数据治理是需要高管甚至董事会关注的重要命题。

突然变时髦的数据管理

对付大数据遭遇的数据孤岛问题有一种方法,就是孤立分析,重点突破。Gartner专门有一种信息估值过程来运用这种方法。“在庞大的数据海洋中,不同数据有着不同的价值,于是数据挖掘的目标,就变成了定义怎样的问题空间,然后在空间内深入分析,”Friedman说道,“就我看来,客户往往将分析边界定义得太过宽泛。”

为了突出重点,企业可以首先问自己这样一个问题:我们到底要从数据中得到什么?这些数据和我们的业务有什么联系?我们如何使用这些数据以获得积极的回报?

随着企业越来越关注潜伏在大数据中的价值信息,Gartner注意到越来越多的公司开始设立数据治理委员会。由业务干系人所组成,这些机构关注一切方面-从哪些是重要的数据源、向什么技术投资,到各种和数据有关的问题,譬如数据质量、数据保留度、数据整合、数据安全性和信息隐私。

外部数据孤岛的危险探索

除了少数IT专家外,也应该开放给其他职员大数据探索的权利,以最大程度从大数据中攫取价值。Gartner及其它专业人士担心,很多组织急于从大数据中牟利,以至于忽视了IT治理的风险,从而付出了侵犯隐私、数据造假等问题而得到严惩的代价。

“在企业里,彻底的数据开放不切实际,”麻省Forrester首席分析师Boris Evelson说道,“有各种各样的监管问题和利益冲突。举个例子,投行的行研师和交易员之间就绝对不可互犯雷池一步。”

在科罗拉多大学国家冰雪研究数据中心(NSIDC)和其数据收集伙伴美国航天局(NASA)看来,保护数据的完整是一项巨大的挑战,NSIDC的IT服务经理David Gallaher如是说。David的主要任务,是收集、管理记录着世界上所有冰冻地域的以PB级计算的科学数据,并保证以可控的方式分发给需要的研究人员。“我们需要让人们尽可能方便地获取他们需要的数据,但我们必须得保证他们不可能胡乱更改其中的任何一处,”正在接受地理学培训的Gallaher表示。另一方面,NSIDC的科学家们每次访问数据后肯定会对其进行更新,所以数据管理的治理原则必须是“正确的人做正确的修改”,Gallaher强调道。NSIDC目前正在和美国国家科学基金会合作完善其数据治理原则。

数据管理-只要多视图,不要多拷贝

不是所有人同意大数据一定意味着更多的数据孤岛这一说法。IBM大数据项目副总裁Anjul Bhambhri就宣称,大数据其实能“帮助”CIO。

“现在,数据孤岛能够进行自我清理,”在一次针对其一年来为200多家公司清理数据孤岛的访谈中,Bhambhri如是说。一家大型企业为邮件归档建立了13个数据集市(单是法务部就使用了8个),因为当他们要访问归档邮件时,他们等不及让IT来处理。另一家公司的两个部门分别为自己的web缓存建立了拷贝。“要知道他们每天就有150亿条缓存要处理,”Bhambhri说道。

新技术-当然,包括IBM的大数据产品-可让企业在一个数据仓库中存储和分析庞大的数据信息。因此,上述两家公司只用保留一个活跃的数据归档,大可不必设立13个归档副本或150亿web缓存。“你的数据只用保存于一处,来自多处的应用即可对数据同时进行访问,因为数据在存储层次的形式保持不变,”Bhambhri说道。然而,即使她和像她这样的积极倡导大数据分析的IT人士,也不断提醒企业,有效的大数据分析,需要对已有的IT系统框架进行彻底地改造。“能够有效存储数据是在正确的方向上前进了一大步,”她说道,“但仅能存储是不够的,有效的分析还需要大量的算法。”

TechTarget中国原创内容,原文链接:http://www.searchcio.com.cn/showcontent_65230.htm

(责任编辑:吕光)

时间: 2024-07-29 13:54:32

大数据分析之数据孤岛:你能看到它们吗?的相关文章

解读:大数据分析及其数据来源

当我们谈到大数据分析,首先需要确定数据分析的方向和拟解决的问题,然后才能确定需要的数据和分析范围.大数据驱动的分析主要的挑战不是技术问题,而是方向和组织领导的问题,要确定方向,提出问题,需要对行业做深入的了解.当然,大数据分析最核心的,关于数据的来源更是至关重要的.在数据量非常大的今天,如何以更高的效率获取到分析所需要的数据,如何利用这些数据反应最真实的情况,是业内不断探讨的议题.接下来,小编就带大家来了解下大数据分析及其数据来源. 大数据分析 大数据分析,顾名思义,就是对规模巨大的数据进行分析

EMC为预测性大数据分析交付数据湖方案

文章讲的是EMC为预测性大数据分析交付数据湖方案,EMC公司和Pivotal今天发布数据湖Hadoop2.0包,面向客户的预测分析场景构建横向扩展数据湖,提供一种包含计算.分析和存储在内的交钥匙方案. 作为一种面向由传统和下一代工作负载产生的关键数据,可无限可扩展的知识库,数据湖正蓄势待发.EMC的横向扩展数据湖以企业级特性为设计之本,帮助组织从大数据中获得直接的商业价值. 今年早些时候,EMC和Pivotal发布了第一个数据湖Hadoop包-基于企业级横向扩展存储与企业级Hadoop预测分析的

大数据分析:数据抽样的终结者

"如果你真的想要了解发生在您企业业务中的真相,你需要大量的非常详细的数据资料."数据仓库研究院(TDWI)研究主任菲利普?·卢瑟姆在其最新的一份TDWI大数据分析报告中写道."如果你真的想看一些你从未见过的东西,这有助于您挖掘从未被商业智能分析过的数据." 这便是大数据分析存在的理由,其是前所未有的.不仅仅是大数据概念的本身提醒着我们,至少我们还可以追溯到21世纪初,"彼时,存储和CPU技术正被百万兆字节的数据所淹没,IT面临着数据的可扩展性危机.&quo

[重磅]清华大数据产业联合会"应用创新"系列第1讲:大数据分析(46PPT)

2014年11月26日晚,清华大数据产业联合会成立仪式在清华大学舜德楼401室召开,联合会依托于清华大学独特的师资和生源优势.清华大学多个院系和学科在大数据相关领域多年的积累与探索,联合大数据产业链中的优秀龙头企业与创新企业,旨在提供大数据产业链的思维碰撞与资源对接平台,促进产.学.研良性互动,以产业需求带动复合型大数据人才的培养,推动大数据生态系统中的各方合作共赢.会议由联合会秘书长王霞主持. 到场的嘉宾有: 清华大学杨斌副校长,清华大学数据科学研究院执行副院长.清华大数据产业联合会会长韩亦舜

论大数据分析的正确方法 应理智对待

据统计,从人类文明开始到2003年,人类共创造了5TB(兆亿字节)的信息.现在,同样的数据量仅需两天就能够被创造出来,且速度仍在加快.如此庞大的数据量使数据分析复杂化,而大数据中的非结构化数据将加深这种复杂度. 这种情况下,我们需要清楚:什么样的数据应被保存.如果从整体性出发,数据采集和存贮算不上大数据,对海量数据进行分析计算之后的结果才有实际价值.这亦是大数据的价值所在. 关于大数据数量,业内一种较为激进的观点认为,"大数据"的叫法存在问题,因为数据只有"大"是没

《大数据分析原理与实践》——1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

《大数据分析原理与实践》一一1.5 全书概览

1.5 全书概览 本书将较为全面地描述大数据分析的模型.技术.实现与应用.其中第2-7章介绍大数据分析模型,包括关联分析模型.分类分析模型.聚类分析模型.结构分析模型和文本分析模型:第8-11章介绍大数据分析相关的技术,包括大数据预处理.特征选择和降维方法.面向大数据的数据仓库和大数据分析算法.第12-14章介绍三种用于实现大数据分析算法的平台,分别是大数据计算平台.流式计算平台和大图计算平台:第15-16章介绍两类大数据分析的具体应用,分别讲述社会网络和推荐系统. 第2章是大数据分析建模的基础

大数据分析不是巨大的负担,而是潜在的黄金

大数据分析是对海量数据的分析技术.大数据时代中,大数据的处理流程包含了数据采集.数据存储.数据分析以及数据挖掘等多个步骤,大数据分析是让无用数据提现价值的关键一步. 大数据分析的特点 大数据分析是利用多种手段从海量数据之中获取智能化.深入化而且更有价值的信息. 大数据分析与数据挖掘有着本质的区别,大数据分析需要大量的数据为基础,而数据量越大算法要求则越低.用于数据分析的数据类型并无固定要求,多为动态增量数据以及存储数据.在技术上,大数据分析技术已经比较稳定,目前不存在太多突破点. 数据挖掘又名资

企业大数据分析实践指南、总结与展望

数据无处不在 在我们身处的时代,数据无处不在.据IBM公司估算,我们每天产生约2.5万ZB的数据,这意味着世界上90%数据都是过去的两年中产生的. Gartner公司分析报告显示,在2015年财富500强的公司中百分之八十五的企业无法利用大数据来获取竞争优势. 到2020年,全世界将有上百万大数据相关的就业机会产生.这些庞大的数据蕴藏了宝贵财富,企业可以使用最先进的分析技术,利用这些数据更好地了解客户的行为,识别商业机会,制定运营战略. 让我们举几个例子: 金融机构每天通过信用评分模型,了解他们