数据的阴暗面:什么是暗数据?为什么暗数据很重要?

最近引起热议的术语暗数据,确切的说,就是来自于大数据的阴暗面。尽管暗数据这个名字听起来不吉利(让人联想到一个少年哥特乐队会取的绰号),但是或许更加的准确。如果尽量减少不良的预感,暗数据更像是是大数据中光明的一面。

大部分的暗数据都被分类于结构造成的信息缺乏之中,而且,这些数据只被使用过一次,最后,就被储存在逻辑混乱,数量庞大的其他社群之中了。实际上,一个信息系统产生的80%的文档都未被二次使用。

那么,在我们进一步研究暗数据到底是什么(以及暗数据能够造成多大的影响)之前,我们必须要了解这个术语是如何出现的。简而言之,当信息管理系统遭到频繁的挑战,暗数据的出现应该看做一种警示。换而言之,不是我们如何管理信息,而是我们为什么要管理信息。某些数据,应该被隐藏起来。例如质量体系中的审计日志和训练记录等作为合乎规格的证据,就应该注意存储,加强管理。万一系统和进程被审核,这类数据就会被用到。作为一个IT人的观点,这种故意而为之的隐藏行为,可以起到一个保证数据安全的功能,同时,能够预防数据被非法入侵。

但是当频繁使用的内容在无意之间变成了暗数据的时候,这不仅仅是一种不方便,而是一个严峻的问题。当一个许多年前的投资建议书忽然消失,因而必须重建的时候,由此带来的后果不仅仅是重新修改以及更改用途,更会造成时间的浪费,做无用功。或者,当客户需要技术支持的时候,作为一个技术支持工程师必须能够浏览客户的所有的历史记录,即使所需数据分散在无数的业务解决方案以及文档存储库之中。

专家的意见:从失意之路转化到成功彼岸

自从暗数据这个名词出现以来,它被冠上的定义仍然有些悚人听闻,但是,专家们抛开其负面的问题,也就是说,将注意力投向暗数据的潜在价值,即最大程度的利用企业的信息资产。

Gartner,把暗数据当做一种积极的“闹钟”,提醒企业应该改变未被利用的数据的现状。“当常规的业务活动开展时,结构的收集,处理以及存储的信息就会转变成暗数据,尤其当这些数据不会被再次使用之后。”同样,Forbes认为暗数据由过街老鼠转变为香馍馍只有一个办法,就是将这些数据运用在其他的业务之中。“暗数据产生于不断增加的复杂的加工进程之中,由此,使之具备了规划未来产业形态的能力。”

将暗数据加入上下文之中,加入元数据的工作之中

最先提到暗数据时,我们首先会联想到它是对信息管理的一种挑战。现如今再提及暗数据的时候,我们会从一个更加理智的方面,把它看做一种管理利用现有信息的手段。由引擎驱使的就是元数据——从字面上看,就是关于数据的数据,可以在一个开放的领域内,进行确认,链接以及选取相互渗透的信息。

至于如何实现该建议,我们应该扩展自己对于元数据的使用方法,来创造一个更具整体性的商业观点,而不是局限于自身对元数据的观念。元数据包含着特殊的属性,它不仅仅和系统中的关键元素相互联系,同样,也可以智能地被项目、客户、工作流、状态栏以及其他的因子用于操控进程、分类数据。信息财产的价值只有当提及与其相关的元数据的总量,才能展现出来。

当驾驶员在路上需要物件来照亮的时候,对比于暗数据,元数据就像是一组全方位的车前灯,使用它的目的非常明确。元数据能够通过一个或多个代码库阐明这些关系,或者通过一个ERP系统和CRM系统,也能够确认信息在一个相容的环境下被读取,存储以及分享。元数据可以提供一个简明扼要的方式,来查找数据源或者历史信息,在此同时,可以确保工作流和业务流程都已被合理的管理。

更深层次的挖掘这个想法之后,就会发现,元数据也可以组成关于文件的发展和循环的信息,而这些记录更是包含了客户、流程、以及涉及到应用的创新、修订、存档、保留和销毁。完全能够和粒度细节相媲美、深度挖掘如评审、批准以及存取许可改变的确切时间戳。

从灰暗面到光明面:管理元数据

正因为暗数据是大数据的萎靡面,要扭转这样的局面只能依靠对元数据的管理。而且,IT行业的管理者在管理结构的时候也会获得更多的灵活性。把元数据当做一个微锚节点加入到文件之中,可以保证所有的企业信息都是可查找的,可利用的,可输出的——无论是任何种类的文件,格式和对象均可。

在这样的模式下企业就会发现,元数据常驻的时候,重要的数据就变少了。但是,信息该被最好的分类管理,以实现信息使用和信息价值的最大化。通过单独管理元数据,组织可以获得一个更为全面的企业内容的观念,即使与元数据相关联的信息中没有出现新的文件,如审计和偏差,元数据也可以提供一个过程和流程,使之变成自己的财产。

因此,当我们把暗数据当做一种未被充分利用的信息,就可以看出元数据包含了像素,如果你愿意,照明信息资产的连通和连配,用以创造一个观察信息的360度的视角。这种对信息管理的全景方法,不仅仅将暗数据予以利用,也使得分散的信息能够被更直接的运用。

作者:佚名

来源:51CTO

时间: 2024-09-23 06:27:42

数据的阴暗面:什么是暗数据?为什么暗数据很重要?的相关文章

大数据的阴暗面

译文作者:洪飞飞;责任编辑:宋星 大家好,我是洪飞飞,大数据观察(Big Data In World)的特约编辑.这篇文章是一篇美国较新的介绍大数据应用的文章,由我翻译给大家.为了保留原来的味道,我没有去掉原文,请大家相较查看. The Dark Side Of Big Data 大数据的阴暗面 By Sue Poremba(作者:休.Poremba) There is a lot of talk about the benefits of big data, but there's a dar

大数据时代你需要知道的7个大数据定义

文章讲的是大数据时代你需要知道的7个大数据定义,大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义.首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据. (1) 最初的大数据 大数据的特征可以用很多词来描述.2001年Doug Laney最先提出"3V"模型, 包括数量 (Volume).速度(Velocity)和种类(Variety).在那以后,业界很多人把3V扩展到了11V,还包括有效性.真实性.价值和可见性等. (2) 大数据:技术 为

mfc-MFC串口数据绘制波形图,如何将WPARAM 型的数据作为纵坐标绘制随时间变化的波形图呢,求代码

问题描述 MFC串口数据绘制波形图,如何将WPARAM 型的数据作为纵坐标绘制随时间变化的波形图呢,求代码 我的纵坐标是-400到400,怎么确定纵坐标,求代码,急急急,拜托了 解决方案 lz前一个问题记得及时采纳.这里,你的wapram应该是消息的一个参数,关键看消息的发出方怎么定义的. 解决方案二: 直接类型转换把坐标的数据转成WPARAM,消息收到后,再类型转换回来

Excel数据透视表:以自己的方式查看数据

  Microsoft Office Excel 2003 工作表是组织和分析财务数据的理想工具.例如,您可能会创建一个包含差旅住宿费的工作表.如果需要各个季度的分类汇总,您知道如何相应地修改工作表. 但是,在需要按季度查看费用类别总计时会发生什么情况呢?而且如果您每次只想查看某一类或某一年份又该怎么办呢?在 Excel 工作表中能实现这些吗?当然可以.有没有更容易的方法?肯定有. ·一种更容易的方法 Microsoft PivotTable 报表就是答案.不必写入复杂的公式,您可以使用向导创建

大凯哥说大数据(系列一):没有云计算就没有大数据

本文作者:肖凯,驻云科技COO,联合创始人,前IBM资深架构师,前EMC资深架构师.负责驻云云计算架构和运维团队,面向企业提供云计算咨询与运维服务,拥有超过10年的系统开发.架构设计.企业级技术咨询的经验. 以下正文 最近很多人跟我聊大数据,有客户,有朋友,还有应聘者.聊得越多却越怕谈大数据,为什么呢?比如有人跟我说他在做基因数据的大数据分析,我听到眼睛一亮,因为十几年前读书的时候做过一些基因序列分析方面的事情,知道这个很有价值但由于当时分析手段很落后也只得作罢,于是我赶紧问,你怎么分析?他说我

胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式

一.楔子 胖子哥是我网名,叫了很多年的网名,网名的来历与自己的沧桑和身材有关,不知是IT改变了我,显得苍老,还是我本就苍老,顺应了IT行业的需要.25岁那年,曾被跟我一样高的漂亮美眉叫叔叔,从此再也不敢打小姑娘的注意,走上了重口味热爱阿姨级别女性的不归路:曾被三十五.六岁的同事阿姨说苍老:看你也就三十五六吧,那年我25:周一的时候,还有一个60后的同事问及我的年龄,他很含蓄的,明显带着保留的口吻问我:你是75年的吧?因为他一直认为和我一般大.然后...然后泪奔.关于体型方面也是个悲剧.三围相等,

select-mysql数据库里只有一条数据为什么查询出来有两条重复的数据

问题描述 mysql数据库里只有一条数据为什么查询出来有两条重复的数据 mysql数据库里只有一条数据为什么查询出来有两条重复的数据 而且两条数据的主键都是一样的. 下面是查询的sql: select a.*,a.prepared_date-now() prepared_date_flag,a.released_date-now() released_date_flag, a.end_date-now() end_date_flag, u.user_type from bidding a inn

请教下如何按照一定比例几个list的数据添加到一个list中,使得最终数据呈比例排列呢?

问题描述 请教下如何按照一定比例几个list的数据添加到一个list中,使得最终数据呈比例排列呢? 请教下一个算法问题,有个final Arraylist,取名为f吧,有3个a, b, c list,里面的数据分别是30, 10, 30. 现在需要按照3:2:1的比例将a, b, c list里面的数据添加到f list中去,final list里面的数据要变成aaa bb c aaa bb c ....这种按比例排列方式. a, b, c这3个list的数据,不一定同时来的.可能a数据来了,然

c++ http-从网关发过的是http协议的json数据,我c++服务器端如何接收这部分数据?

问题描述 从网关发过的是http协议的json数据,我c++服务器端如何接收这部分数据? 从网关发过的是http协议的json数据,我c++服务器端如何接收这部分数据? 解决方案 C++先当字符串方式接收,然后在用jsoncpp等库把字符串转换成json对象解析 解决方案二: encienqi-----服务器端输出 JSON 格式数据服务器端输出 JSON 格式数据服务器端输出 JSON 格式数据 解决方案三: http://blog.csdn.net/querw/article/details