Informatica帮助您释放“暗数据”潜能

文章讲的是Informatica帮助您释放“暗数据”潜能,在自然界中有一种物质叫做“暗物质”,从物理学家的解释来看,“暗物质”是自然界当中最充满能量的部分,如何发挥“暗物质”的作用是当代自然科学研究的话题。而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的“暗数据”,怎样发挥“暗数据”的价值。

  有一种说法,人类只要利用大脑的 10%,就可以实现长生不老。即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘。同样,许多企业也仅利用了数据的一小部分,而把经过巨大的开销存储着的关于流程、员工、客户和产品的宝贵数据放在数据孤岛中,无法有效利用。我们对数据的挖掘还处在一个非常初级的阶段,可将其称之为“黎明前的黑暗”阶段。

  定义“暗数据”

  “暗数据”是指企业已付费购买、收集以及存储在各种系统和数据存储中,但实际上目前并未使用、分析甚至访问的所有数据。我们可以将“暗数据”视为大数据的子集,它可以包括存储在 CRM 数据仓库的结构化数据、日志文件甚至来自于社交媒体的非结构化数据等所有数据。

  当然,有些企业已经实施数据仓库或者大数据平台,清楚数据的存在,并正在发掘数据的价值,但他们依然存在暗数据的问题。因为实施数据仓库常常是站在IT的角度,对于IT来讲或许已经是可以利用的明数据,对于其它部门,尤其是业务部门如果没有充分有效的利用手段和方式,仍然是“暗数据”。如果您实际上无法利用付费购买的数据,那么最终您就无法对企业的整体行为形成一致观点。这意味着您将无法分析流程、合理配置资源,也无法在系统中找到代表您的专有优势的数据。

  “暗数据”产生

  显而易见, 没有任何组织主动采取低效、 昂贵和不明智的措施。但一系列新应用程序和大量新数据已使很多公司忽视了他们已经拥有和付费购买的数据。为何会有这么多“暗数据”存在?我们从以下四点来解释:

  1、企业甚至没有意识到数据的存在

  企业不止有IT部门,还有更多的业务人员、管理决策人员,当他们尝试解答疑难问题或改进工作方式时,会回避寻找并分析自己不熟悉的数据集的挑战,这种情况十分常见。不幸的是,往往由于缺乏技能、时间或能力,他们很难将正确的数据公诸于世,这在日常的工作当中是非常典型的一种场景。举例说明,有些企业表示不清楚到底有多少客户,这是真的吗?回答是否定的,因为现在的企业IT已非常完善,每一笔客户的交易信息都会存在系统当中,或许有些数据质量不是很好,但它们都是存在的,只是企业自己没有意识到。如果这些数据以整个组织都能访问的方式存储,就能为更多业务部门、项目团队提供支持,进而制定更明智的决策,并对更多假设进行测试。

  2、企业意识到数据的存在,但不知道具体位置,利用的手段和方法也不足

  企业已经建设了很多数据管理系统,知道数据是存在的,但如果组织的数据体系结构或复杂的数据流程起到阻碍作用,那就很难访问数据。如果各个部门都在数据孤岛中工作,并且数据保存在遗留数据存储中,那么即使是求知欲最强的团队也会徒然碰壁。如果没有制定关于存储和管理所有这些数据的整个企业范围的战略,那么组织的决策质量仍将受制于内部组织架构和过时的技术。

  3、实际利用数据过于昂贵阻碍了数据使用的效果

  即使企业已经发现了所需的“暗数据”,通常也必须面对与在遗留系统上处理这些数据相关的一连串成本问题,如数据利用的环节过长。即便他们通过使用Hadoop此类的新软件架构,在价格较低廉的硬件上复制这些数据来努力避免这些成本,但与迁移流程和获取新技能相关联的初始成本对于单个项目而言,通常仍显得过高。这也造成了很多的数据其实仍然是未被充分使用的状态,仍然隐藏在我们的IT系统和日常流程当中。为了充分利用企业已拥有的数据,需要为更现代化的数据体系结构奠定基础,否则,您仍会继续为数据支付巨额费用,却无法承担对其进行分析产生的成本。

  4、某些数据存在遵守法律的问题

  如金融、电信、医疗等行业的数据量非常多,但无法将某些数据提供给任何人分析,最重要的原因之一是害怕违反法律法规的要求。对于企业而言,要使其拥有的数据具有意义,需要部署明确定义的流程和工具,以保证这些数据的安全性。Informatica 有专门的解决方案,叫做数据脱敏(Data Masking),保证数据隐私不被泄露的情况下充分利用数据。

  公开“暗数据”

  既然我们面临着非常多的“暗数据”,那么公开就是它的对立面,叫做数据的透明化,我们期望的结果是企业中所有数据,对企业的任何一个参与者——IT、业务、决策、财务——都是透明的,在他们想分析的时候都能找到所需的数据。

  任何企业在发掘数据价值的时候,往往包括三种典型的角色:集成商、IT部门和业务部门。人们常常讨论谁才是数据的主人,一般认为是业务部门,但完成实际操作过程的却是集成商,似乎所有的报表都是集成商来做,所有的分析也是集成商完成。在数据分析数据使用中有一个常常被大家忽略的过程,被称为数据的探索和探查的过程也是由集成商来完成。这其实是业务模式的一个致命弱点,由集成商完成数据探查工作,再根据业务或者IT提的报表分析需求来使用这些数据,使用数据的主体——业务部门并没有参与探索数据,并没有亲身体验分析数据的过程。

  业务部门参与数据挖掘对数据价值的实现大小关系密切。如果找集成商来做大数据平台可能也叫BIG DATA,但这个“BIG”很小;假如IT部门能充分参与架构设计和数据的探索过程,这个“BIG”会变得大一点;假如业务部门也参与可能使“BIG”变得更大,数据在企业中的流程也会缩短,业务部门会知道数据的存放位置,“暗数据”问题能够更快解决。

  业务部门如何才能自我分析数据,实现自助服务?他们需要一个有效的IT支撑手段,需要IT把暗数据透明化,变成透明的数据。实现数据透明化的一个基础是数据标准化,建立标准化平台。暗 数 据存在于不同系统中,需要重新格式化、解析、筛选、标准化、整合以及细 化, 使 其 为 输 入 到 任何分 析 工 具 和 应 用 程 序 中 做 好准备。

  真正释放“暗数据”潜能,让数据见光需要一定的策略变化,除了上述的要启动业务部门的自助服务的能力,以及启动IT部门的标准化构建,还有一个关键点是启动可重复利用“暗数据”的流程。大多数公司所犯的最大错误是认为他们只需对其“暗数据”进行一次深入探究,这可不止是一个一次性的流程。数据只会不断增长,无论是规模、多样性还是价值,提供数据的应用程序的数量和类型也会不断变化,因此,与其一遍又一遍地解决单个“暗数据”项目,应该考虑建立一个可重复的流程。这意味着采用所需技术,建立现代化的基础架构,以使您的所有数据随时可供访问并保持一致,使其保持洁净、安全、互联互通。

  “暗数据”并非仅仅表明技术开支效率低下,它还表明企业难以利用其积累起来的丰富知识,“暗数据”是一个有待发掘的潜在金矿。在我国当前新型工业化进程中,提倡大数据的前奏叫数字化,数字化能够贯通各个环节,把原来可能隐藏在工业流程当中的数据释放出来,用数据来描述工业流程,这也成为众多领先企业希望征服“暗数据”的原因所在。

作者:崔月

来源:IT168

原文链接:Informatica帮助您释放“暗数据”潜能

时间: 2024-09-20 00:27:39

Informatica帮助您释放“暗数据”潜能的相关文章

释放大数据潜能——国家卫计委推动人口流动迁移数据资源共享

"我们随时欢迎各研究机构的加入,从推进国家治理体系和治理能力现代化的战略高度,发挥智库作用,推动科学决策,谋划发展蓝图."7月2日,在国家卫生计生委(以下简称国家卫计委)流动人口司与北京大学国家发展研究院联合举办的"第三届新型城镇化与流动人口社会融合论坛"上,国家卫计委副主任王培安提出倡议:加快推进政府部门人口数据的共享,促进公共数据资源开放互通,加强数据开发共享的国际交流. 打破信息孤岛推动政府人口数据共享 论坛上,来自北京大学.清华大学.中国人民大学.南开大学等

如何找出企业内部的“暗数据”?

在自然界中有一种物质叫做"暗物质",从物理学家的解释来看,"暗物质"是自然界当中最充满能量的部分,如何发挥"暗物质"的作用是当代自然科学研究的话题.而在数据科学领域,人们都在讨论如何发掘隐藏在企业内部和整个互联网上巨量的"暗数据",怎样发挥"暗数据"的价值. 有一种说法,人类只要利用大脑的 10%,就可以实现长生不老.即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们

Informatica孙大山:大数据下的生意经

ZDNet至顶网软件频道消息:目前,很多企业在完成数据收集后,就把这些数据闲置甚至丢弃了,这是非常可惜的,因为数据对于每个企业来说都是非常宝贵的资源.Informatica中国区资深技术顾问孙大山在做客ZDNet直播访谈时表示,"大数据遍布企业的方方面面,它不仅可以帮助企业规划自身资源,对企业内部做到更全面的内视:大数据也可以帮助企业更好地了解用户,通过数据分析推出一些以客户为导向的产品或以客户为针对性的服务." 企业在做大数据项目时需要注意一点,那就是大数据并不是一朝一夕就能完成的工

点亮你的暗数据

有一种说法,人类只要利用大脑的10%,就可以实现长生不老.即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘.同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用. 行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据.换句话说,这相当于 575 亿台32 GB内存的iPhone手机总存储量.毫无疑问

Commvault蔡报永:点亮你的暗数据

有一种说法,人类只要利用大脑的10%,就可以实现长生不老.即便在无数神经学家将其斥为胡编乱造的无稽之谈,多年以后,我们还是不会放弃这种念头,因为我们知道自身还有很多潜力没有发挥,只是有待发掘.同样,在数据科学领域,许多企业仅利用了数据的一小部分,有些宝贵数据却被放在数据孤岛中,无法有效利用. 行业研究显示,全球每天创造2.5个五万亿字节的数据,而在过去的两年中,这些数据中的90%来自于每天从众多不同渠道产生的数据.换句话说,这相当于575亿台32GB内存的iPhone手机总存储量.毫无疑问,这确

为云准备 新数据中心网络释放代码数据

本文讲的是为云准备 新数据中心网络释放代码数据,IT标准化和商品化的后果之一是谷歌的数据中心是计算机对世界的看法.在所有计资源中,包括CPU,内存,存储都是可替代的.无论独立的位置,还是配件它们是可以互换的.未来,PC将失去失去主导地位,仅仅成为IT服务的一部分.   ▲数据中心网络架构图 访问失败已经是商业数据中心的最糟糕表现,引起这个问题的原因源于现在的网络结构状态上更容易搭配.MapReduce的著名代码也正因为如此而存储到各个节点. 网络环境的变更和假设条件的改变,将驱动软件基础架构驱动

SAP全新预测性分析软件 释放大数据价值

本文讲的是SAP全新预测性分析软件 释放大数据价值,为了在当今瞬息万变的市场环境中保持竞争力,企业需要不断调整和完善自己的商业战略,因此,他们非常依赖对当前信息进行分析,以制定出面向未来的决策.为帮助企业更好地预测未来.提高决策能力,SAP公司宣布推出全新的SAP BusinessObjects Predictive Analysis(SAP BusinessObjects预测性分析)软件.这一全新软件为用户提供了更现代化.更友好.图表界面更出色的工具,帮助他们实现预测性建模和高级可视化.依托S

重新定义商业智能 释放大数据的价值

ZDNET至顶网CIO与应用频道 10月31日 北京消息:很少有企业机构质疑大数据和分析能够为其带来的巨大价值,但最重要的问题在于,如何在可持续发展的基础上迅速释放大数据的价值,而无需巨额的前期投资. 企业已无法应对非结构化数据和传感器数据在数量和种类上的迅速增长.因而,他们迫切需要增进大数据分析的专业知识和能力,以保持竞争力. 在当今这个以客户为先的时代,工业化规模的分析能力和数据驱动型洞察能力是企业生存的关键,数据必须进行实时处理.这也是大多数企业都面临的挑战.据Forrester Rese

释放大数据生产力 Kyligence发布最新版旗舰产品KAP2.4

2017年7月15日,Strata大数据峰会在北京顺利召开.Kyligence联合创始人兼CEO韩卿做了题为<释放大数据生产力>的主题演讲,介绍了在大数据已成为企业核心竞争力的时代,Kyligence如何为企业提供进一步提升生产力的大数据分析平台和技术 ,同时,韩卿宣布Kyligence企业级大数据智能分析产品Kyligence AnalyticsPlatform(KAP)最新版旗舰产品--KAP2.4正式发布. 作为Apache Kylin的企业级产品,KAP为用户提供了更快的性能.更好的设