未挖掘到足够信息:非收集数据少,是利用率只有1%

Gurjeet Singht,Ayasdi联合创始人兼CEO。在Gigaom上带来了关于当下大数据技术的看法,Singht认为:从查询开始分析数据本身就是一个死胡同,并指出了当下的大数据只完成了万里长征的第一步。

以下为译文:

许多人都会被震惊,如果他们知道研究人员只是从收集到数据中1%的数据进行分析和提取见解。而就是这1%被分析的数据支配了革新和见解,现在我们称之为“大数据”。而在每天收集的1 quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。

我们都知道使用大数据非常的有前途,然而基于当下的许多因素,数据的有效利用仍然是个瓶颈。药物研发过程中,数据的使用多于化学过程;新能源的探测中,数据的使用超过地质学;恐怖分子的追踪、预防欺骗中同样如此。

当下我们认识到的这些问题(上文)和其它一些全局性问题,都是数据使用的瓶颈所造成的。这种情况催生了大数据上的海量投资,而数据工作同样成为了最热门的岗位 —— 数据科学家,更把私人数据分析服务提供商的估值推到数十亿美元。然而,你能想象到将分析的数据从1%提升到100%的前景吗。

对已有数据分析的见解

如果你拥有一个和人类基因一样庞大的数据集,你该如何开始?比如,奥巴马最近提倡对人类大脑进行绘制?为了突破,我们需要解决这个世界上最复杂的问题,我们需要根本上改变从数据中获取知识的途径。这里我们必须首先思考的是:

从查询开始必然是一个死胡同:查询本身并没有问题。事实上一旦你知道问什么问题,查询是至关重要的。同样这也是关键所在:从查询开始的初衷是从大量的数据中发现一个指针,然而他们并未做到。

数据是有开销的:大部分情况下,数据的储存已经不再昂贵。而且通过使用类似Hadoop或Redshift的工具,即使查询大量的数据都变得非常划算。当然,这只是从硬件的角度上讲。

见解就是金钱:我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。

你已经拥有了足够多的数据:这里经常存在的信念就是 —— “如果我们拥有了足够多的数据,我们肯定会得到我们想要的。”太多的时间和精力被浪费在新的数据收集上,其实你可以用你手中的数据做更多的事情。举个例子,Ayasdi最近在Nature Scientific Reports公布的从12岁乳腺癌患者身上获得的新见解,就已经被深入分析了10多年之久。

大数据只是起步,并不是终点

基于查询的分析在某些方面确实可以起到很多作用,但是很显然并没有满足人们对大数据的期望。

经常会听到我们在癌症研究、能源勘探、药物发现、金融欺诈检测等领域取得了关键性突破,如果因为炒作出来的“大数据泡沫”导致人们因为各种原因在数据分析投资上的失败,这与犯罪又有何不同?

所以我们需要给予数据分析更高的期望,我们更需要认识到下一代解决方案必须满足:

授权领域专家:数据科学家出现的频率已完全跟不上企业的需求。这里不妨这么做,停止继续为他们(数据科学家)开发工具;取而代之的是,给商业用户(生物学家、地质学家、安全分析师等)开发对应的工具。他们比任何人都明白问题出现的环境,但可能跟不上最新的技术或数学。

加速探索:我们需要更快的获得关键见解。事实证明大数据技术的处理速度并没有承诺的那么快。如果一直这样发展下去,可能我们永远都得不到足够快的关键见解获得速度,因为我们永远都不可能针对所有数据提出所有的问题。

人机整合:为了更快的获得见解,我们需要加大对机器智能的投资。我们需要机器能在数据点之间寻求连接和关系时担当更多的重任,让其给商业用户一个更好的起点去探索见解。事实上通过算法途径解决这些问题是完全可行的,并且人们本身永远都不可能发现大型数据集上的显著特征。例如在最近的一项研究中,通过算法查询网络搜索引擎日志发现了之前未报告过的药物副作用。

分析各种形式的数据:当然,研究人员需要分析结构化和非结构化的数据。同样我们需要认识非结构化数据的多样性:所有语言、声音、视频和面部识别文档。

当谈到大数据演变,我们只处于其初级阶段。显而易见如果我们继续分析百分之一的数据,那么我们只能挖掘其1%的价值。如果我们能够分析其它的99%,那么想象一下我们可以从各种方面推动世界进步。我们可以加速经济增长、治愈癌症及其他疑难杂症、减少恐怖袭击、以及在一些其它的挑战上拿到入场卷。

(责任编辑:蒙遗善)

时间: 2024-09-11 18:27:36

未挖掘到足够信息:非收集数据少,是利用率只有1%的相关文章

如何收集智能数据,而非大数据

今天媒体和IT企业都在极力鼓吹大数据,不过我们可以看看有多少企业现有的数据是利用好的呢?可能很少. 举个简单的例子,在大数据上也废了一番功夫的淘宝.我曾经在淘宝上购买了一个柜子,但是购买完成后,淘宝平台给我推荐的东西却是其他店面的柜子.这种推荐真的让我哭笑不得.我毕竟不是开家具卖场的,不至于短期内要买一堆类似的产品.我相信淘宝上有我的交易数据,也有一些个人信息.数据量是可以分析出我是个人购买还是企业购买. 所以,先撇开大数据不谈,就我们今天有的数据,我们是否真的擅长使用他们吗?最近美国一家数字营

10种令人惊讶的方式你的日常生活中正在收集数据的大数据野兽

10种令人惊讶的方式你的日常生活中正在收集数据的大数据野兽 原文:http://www.bloomberg.com/slideshow/2014-06-03/10-surprising-ways-your-daily-life-is-feeding-the-big-data-beast.html 无处可逃 大数据是你日常生活中,不管你喜欢与否的重要组成部分 - 甚至是意识到这一点. 当你去看医生,去到你的手机上工作或获得方向,有一个很好的机会,有软件在那里悄悄地收集和分析这些信息.并根据不同的情

个人敏感信息滥用 大数据时代信息保护遭挑战

我们的背后不知道有多少窥视的眼睛,身份.位置.银行账号--各种个人敏感信息正被各形各色的采集者获取,滥用.泄露的风险无处不在.大数据时代,个人信息保护正遭受严峻的挑战. 你放心把自己的钥匙交给陌生人吗? 在不久前支付宝的一次升级中,用户可以提供更多信息用以提升芝麻信用值.当中国移动员工宁宇发现支付宝希望客户提供客服密码,授权给芝麻信用使用时提出了质疑:"把你的客服密码告诉支付宝,就等于把自己家的钥匙交了出去,你放心么?" 我国电信运营商都要求客户设置客服密码,通过这组6位数字的密码可以

微软公布Windows 10收集数据细节 控制措施更完善

微软表示,从今天开始,微软更新其隐私声明并发布Windows 10收集数据有关细节.微软首次发布了在基本级别收集诊断数据的完整列表.微软还提供了从基础和全面诊断的用户收集数据的详细摘要.微软正在最新的"创作者更新"中引入更好的Windows 10数据收集级别控制措施,这将在下周开始广泛推出. 这项措施允许用户在基本和完整级别的数据收集之间进行切换.微软团队自从周年纪念更新以来一直在努力重新评估在基本层面收集数据的必要性,以使Windows 10设备保持最新和安全.因此,微软将收集事件数

个人敏感信息滥用 大数据时代信息保护遭严峻挑战

我们的背后不知道有多少窥视的眼睛,身份.位置.银行账号--各种个人敏感信息正被各形各色的采集者获取,滥用.泄露的风险无处不在.大数据时代,个人信息保护正遭受严峻的挑战. 你放心把自己的钥匙交给陌生人吗? 在不久前支付宝的一次升级中,用户可以提供更多信息用以提升芝麻信用值.当中国移动员工宁宇发现支付宝希望客户提供客服密码,授权给芝麻信用使用时提出了质疑:"把你的客服密码告诉支付宝,就等于把自己家的钥匙交了出去,你放心么?" 我国电信运营商都要求客户设置客服密码,通过这组6位数字的密码可以

第11章 嵌入非XML数据

xml|数据 XML教程<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />  不是世界上的所有数据都为XML格式.实际上,可以大胆地说世界上积累下来的数据大部分都不是XML格式.大量数据按无格式文本.HTML和微软的Word格式保存,这里只举出三种常用的非XML格式.在理论上说,如果有兴趣且财力允许的情况下,至少这些数据的大部分可以重写为XML格式,但也不是所有的数据都可以

UWP 应用获取各类系统、用户信息 (1) - 设备和系统的基本信息、应用包信息、用户数据账户信息和用户账户信息

原文:UWP 应用获取各类系统.用户信息 (1) - 设备和系统的基本信息.应用包信息.用户数据账户信息和用户账户信息 应用开发中,开发者时常需要获取一些系统.用户信息用于数据统计遥测.问题反馈.用户识别等功能.本文旨在介绍在 Windows UWP 应用中获取一些常用系统.用户信息的方法.示例项目代码可参见 Github: https://github.com/validvoid/UWP-SystemInfoCollector 由于涉及内容较多,故本文会分为多篇展开.本篇介绍获取设备和系统的基

《R语言游戏数据分析与挖掘》一2.2 数据对象

2.2 数据对象 R拥有许多用于存储数据的对象类型,包括向量.矩阵.数组.数据框和列表.它们在存储数据的类型.创建方式.结构复杂度,以及用于定位和访问其中个别元素的标记等方面均有所不同.多样化的数据对象赋予了R灵活处理数据的能力. R中有许多数据类型用来存储各种各样的数据,包括数值型(numeric).逻辑型(logical).日期型(date).字符型(character).复数型(complex).原味型(二进制形式保存数据raw).此外,也可能是缺省值(NA)和空值(NULL).其中最经常

淘宝:非结构性数据的价值

如果说数据是财富,但是面对浩如烟海的数据无异于大海捞针,究竟采用怎样的分析方法才能让数据发挥价值?企业怎样从数据中找出隐含着消费者行为习惯.潮流趋势.产品走势的线索,以此作为下一步发展的依据呢? 淘宝网商业智能部资深总监车品觉给出的观点是,"商业智能决策不一定需要大数据,反而是精准的数据更为重要." 结构性数据VS非结构性数据 数据有两种类型,一种是结构性数据,一种是非结构性数据.两种数据的分析方法和作用各不相同,在精准营销中,非结构性数据虽然分析方法相对较难,但是由于其对消费者行为的