如何找出企业内部的“暗数据”?

在自然界中有一种物质叫做“暗物质”,从物理学家的解释来看,“暗物质”是自然界当中最充满能量的部分,如何发挥“暗物质”的作用是当代自然科学研究的话题。而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的“暗数据”,怎样发挥“暗数据”的价值。

有一种说法,人类只要利用大脑的 10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,许多企业也仅利用了数据的一小部分,而把经过巨大的开销存储着的关于流程、员工、客户和产品的宝贵数据放在数据孤岛中,无法有效利用。我们对数据的挖掘还处在一个非常初级的阶段,可将其称之为“黎明前的黑暗”阶段。

定义“暗数据”

“暗数据”是指企业已付费购买、收集以及存储在各种系统和数据存储中,但实际上目前并未使用、分析甚至访问的所有数据。我们可以将“暗数据”视为大数据的子集,它可以包括存储在 CRM 数据仓库的结构化数据、日志文件甚至来自于社交媒体的非结构化数据等所有数据。

当然,有些企业已经实施数据仓库或者大数据平台,清楚数据的存在,并正在发掘数据的价值,但他们依然存在暗数据的问题。因为实施数据仓库常常是站在IT的角度,对于IT来讲或许已经是可以利用的明数据,对于其它部门,尤其是业务部门如果没有充分有效的利用手段和方式,仍然是“暗数据”。如果您实际上无法利用付费购买的数据,那么最终您就无法对企业的整体行为形成一致观点。这意味着您将无法分析流程、合理配置资源,也无法在系统中找到代表您的专有优势的数据。

“暗数据”产生

显而易见, 没有任何组织主动采取低效、 昂贵和不明智的措施。但一系列新应用程序和大量新数据已使很多公司忽视了他们已经拥有和付费购买的数据。为何会有这么多“暗数据”存在?我们从以下四点来解释:

1、企业甚至没有意识到数据的存在

企业不止有IT部门,还有更多的业务人员、管理决策人员,当他们尝试解答疑难问题或改进工作方式时,会回避寻找并分析自己不熟悉的数据集的挑战,这种情况十分常见。不幸的是,往往由于缺乏技能、时间或能力,他们很难将正确的数据公诸于世,这在日常的工作当中是非常典型的一种场景。举例说明,有些企业表示不清楚到底有多少客户,这是真的吗?回答是否定的,因为现在的企业IT已非常完善,每一笔客户的交易信息都会存在系统当中,或许有些数据质量不是很好,但它们都是存在的,只是企业自己没有意识到。如果这些数据以整个组织都能访问的方式存储,就能为更多业务部门、项目团队提供支持,进而制定更明智的决策,并对更多假设进行测试。

2、企业意识到数据的存在,但不知道具体位置,利用的手段和方法也不足

企业已经建设了很多数据管理系统,知道数据是存在的,但如果组织的数据体系结构或复杂的数据流程起到阻碍作用,那就很难访问数据。如果各个部门都在数据孤岛中工作,并且数据保存在遗留数据存储中,那么即使是求知欲最强的团队也会徒然碰壁。如果没有制定关于存储和管理所有这些数据的整个企业范围的战略,那么组织的决策质量仍将受制于内部组织架构和过时的技术。

3、实际利用数据过于昂贵阻碍了数据使用的效果

即使企业已经发现了所需的“暗数据”,通常也必须面对与在遗留系统上处理这些数据相关的一连串成本问题,如数据利用的环节过长。即便他们通过使用Hadoop此类的新软件架构,在价格较低廉的硬件上复制这些数据来努力避免这些成本,但与迁移流程和获取新技能相关联的初始成本对于单个项目而言,通常仍显得过高。这也造成了很多的数据其实仍然是未被充分使用的状态,仍然隐藏在我们的IT系统和日常流程当中。为了充分利用企业已拥有的数据,需要为更现代化的数据体系结构奠定基础,否则,您仍会继续为数据支付巨额费用,却无法承担对其进行分析产生的成本。

4、某些数据存在遵守法律的问题

如金融、电信、医疗等行业的数据量非常多,但无法将某些数据提供给任何人分析,最重要的原因之一是害怕违反法律法规的要求。对于企业而言,要使其拥有的数据具有意义,需要部署明确定义的流程和工具,以保证这些数据的安全性。Informatica 有专门的解决方案,叫做数据脱敏(Data Masking),保证数据隐私不被泄露的情况下充分利用数据。

公开“暗数据”

既然我们面临着非常多的“暗数据”,那么公开就是它的对立面,叫做数据的透明化,我们期望的结果是企业中所有数据,对企业的任何一个参与者——IT、业务、决策、财务——都是透明的,在他们想分析的时候都能找到所需的数据。

任何企业在发掘数据价值的时候,往往包括三种典型的角色:集成商、IT部门和业务部门。人们常常讨论谁才是数据的主人,一般认为是业务部门,但完成实际操作过程的却是集成商,似乎所有的报表都是集成商来做,所有的分析也是集成商完成。在数据分析数据使用中有一个常常被大家忽略的过程,被称为数据的探索和探查的过程也是由集成商来完成。这其实是业务模式的一个致命弱点,由集成商完成数据探查工作,再根据业务或者IT提的报表分析需求来使用这些数据,使用数据的主体——业务部门并没有参与探索数据,并没有亲身体验分析数据的过程。

业务部门参与数据挖掘对数据价值的实现大小关系密切。如果找集成商来做大数据平台可能也叫BIG DATA,但这个“BIG”很小;假如IT部门能充分参与架构设计和数据的探索过程,这个“BIG”会变得大一点;假如业务部门也参与可能使“BIG”变得更大,数据在企业中的流程也会缩短,业务部门会知道数据的存放位置,“暗数据”问题能够更快解决。

业务部门如何才能自我分析数据,实现自助服务?他们需要一个有效的IT支撑手段,需要IT把暗数据透明化,变成透明的数据。实现数据透明化的一个基础是数据标准化,建立标准化平台。暗数据存在于不同系统中,需要重新格式化、解析、筛选、标准化、整合以及细化,使其为输入到任何分析工具和应用程序中做好准备。

真正释放“暗数据”潜能,让数据见光需要一定的策略变化,除了上述的要启动业务部门的自助服务的能力,以及启动IT部门的标准化构建,还有一个关键点是启动可重复利用“暗数据”的流程。大多数公司所犯的最大错误是认为他们只需对其“暗数据”进行一次深入探究,这可不止是一个一次性的流程。数据只会不断增长,无论是规模、多样性还是价值,提供数据的应用程序的数量和类型也会不断变化,因此,与其一遍又一遍地解决单个“暗数据”项目,应该考虑建立一个可重复的流程。这意味着采用所需技术,建立现代化的基础架构,以使您的所有数据随时可供访问并保持一致,使其保持洁净、安全、互联互通。

“暗数据”并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,“暗数据”是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡大数据的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的数据释放出来,用数据来描述工业流程,这也成为众多领先企业希望征服“暗数据”的原因所在。

原文发布时间为:2015年8月27日

本文作者:Informatica公司中国区首席技术顾问杜绍森 

本文来自合作伙伴至顶网,了解相关信息可以关注至顶网。

时间: 2024-09-15 20:53:34

如何找出企业内部的“暗数据”?的相关文章

在一组固定数据中,找出匹配要求的所有数据组合

问题描述 需求目的:在一组固定数据中,找出匹配要求的所有数据组合1)原始数据共有36个固定数据(无重复),每个数据代表一个房间的面积:(见最后的附表一)2)另一组是客户数据(共1024个人),每个人有自己需要的房屋面积.(见最后的附表二)要求实现:从36个固定数据中,为1024人中每个人找出所有可能的组合,以满足这个组合的面积数据之和=当前人所需要的面积数.具体实现要求:a)组合的面积数据之和必须与客户所需面积之间的差额在正负5%以内即视为相等,超出的忽略:b)面积组合中数,无论是同一数据的N个

如何找出Excel里的重复数据

  1.选中需要找出重复数据的单元格内容.,接着依次点击工具栏的"样式"→"条件样式"→"突出显示单元格规则"→"重复值". 2.然后我们就可以选择重复值的填充形式啦.选择完毕后点击确认即可. 3.这样表格里的重复值就被快速找出并凸显出来啦.

找出诡异的Bug:数据怎么存不进去

带着学生做课程设计.程序一大,课程中做过了小项目,练过了分解动作,一到合起来了,难免还是要乱了分寸.其实,实战的功夫,就是这样出来的.(课程设计指导视频链接(第36课时,3.18 银行系统开发),课程主页在链接,指导文档见链接,示例程序见链接). 话说,已经有两位做银行系统的同学和我说,"文件中写不进去数据.程序一退出,明明写进去了,结果却是空文件."这不是一个小打击. 做软件,找Bug,有些像打空气,使半天劲,人家就不理你.学计算机的人,练的就是这样的功夫,要学会自己创建线索,找出问

使用IBM Support Assistant找出企业应用程序解决性能问题的模式

在本文中,作者通过介绍三个基于实际情况的http://www.aliyun.com/zixun/aggregation/7853.html">案例研究,分享了有关检测和诊断在生产和开源基准应用程序中的性能问题的经验.这些案例研究强调了如何配合使用 Garbage Collection and Memory Visualizer (GCMV) 和 IBM Monitoring and Diagnostic Tools for Java - Memory Analyzer (MAT) 等各种

Informatica帮助您释放“暗数据”潜能

文章讲的是Informatica帮助您释放"暗数据"潜能,在自然界中有一种物质叫做"暗物质",从物理学家的解释来看,"暗物质"是自然界当中最充满能量的部分,如何发挥"暗物质"的作用是当代自然科学研究的话题.而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的"暗数据",怎样发挥"暗数据"的价值. 有一种说法,人类只要利用大脑的 10%,就可以实现长生不老.即便在无数神

Teradata大中华区CEO:企业如何应对大数据时代

Teradata天睿公司大中华区首席执行官辛儿伦 5月21日消息,Teradata天睿公司大中华区首席执行官辛儿伦(微博)日前接受新浪科技专访时表示,随着大数据时代的到来,企业应该在内部培养三种能力:第一,整合企业数据的能力:第二,探索数据背后价值和制定精确行动纲领的能力:第三,进行精确快速实时行动的能力. 数据快速增长 Teradata天睿公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合,分析,探索.挖掘数据背后的价值,从而提高客户生产的竞争力.目前,Teradata天睿公司在大

Teradata:企业如何应对大数据时代

本文讲的是Teradata:企业如何应对大数据时代,5月21日消息,Teradata天睿公司大中华区首席执行官辛儿伦日前接受新浪科技专访时表示,随着大数据时代的到来,企业应该在内部培养三种能力:第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力. 数据快速增长 Teradata天睿公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合,分析,探索.挖掘数据背后的价值,从而提高客户生产的竞争力.目前,Teradata天睿公司在大中华区

点亮你的暗数据

有一种说法,人类只要利用大脑的10%,就可以实现长生不老.即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘.同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用. 行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据.换句话说,这相当于 575 亿台32 GB内存的iPhone手机总存储量.毫无疑问

Commvault蔡报永:点亮你的暗数据

有一种说法,人类只要利用大脑的10%,就可以实现长生不老.即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘.同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用. 行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据.换句话说,这相当于575亿台32GB内存的iPhone手机总存储量.毫无疑问,这确