一张图搞懂美国大数据产业(上)

数据科学早已不是新鲜事物了,不过对数据质量的需求却是这几年才激增起来的。这可不是一阵时尚或旧词新用,而是一场革命。大至总统选举,小至总部设在厨房餐桌的小创业公司的各种决策,已不再是建立于直觉与猜想之上,而是植根于真实可靠的数据。

数据科学发展日新月异,如今各种数据工具已经形成了一个庞大的生态系统。我花了一个多月以尝试给这个生态系统勾画出一个清晰的轮廓,在接下来的文章里会介绍给大家。

数据科学本身功能交叉,许多数据公司与工具难以归类。但总体来说,它们分属数据专家工作流程中的三个主要部分:数据获取、数据处理、数据分析(文首图可见本生态系的概貌)

为何要勾画这个数据生态信息系统?

我花了大量时间与数据专家交流,了解他们的工作流程、难点及解决方案。数据科学工具成千上万,这个生态系统表当然无法将其一一罗列,不过最常见的软件、公司及推动这些工具发展的开源程序都已包含其中。

数据专家不能只生活在R语言或Excel表格里。他们需要工具来获得质量拔尖且可用于预测分析的数据。其实我觉得这正是统计学家和数据专家的区别所在。在我看来,统计学家使用数据进行回归分析。而数据专家需要切实获取数据、进行回归分析、沟通结果、展示模式,并超越所在机构当时的局限,立足于制高点带领大家寻求切实可行的突破发展。鉴于他们需要统筹整个数据通道,我希望这个数据生态系统可以罗列出数据专家门常用的重要工具和使用方法,以及工具之间的交互联系。

现在干货来了!

第一部分:数据源

数据是整个数据生态系统的源头。总的来说,数据源可分为数据库、应用和第三方数据三类。

数据库

结构化数据库早于非结构化数据库出现。结构化数据库每年有约250亿美元的市场,你可以在数据生态系统图里看到众所周知的Oracle,和一些新创公司譬如MemSQL等。结构化数据库储存有限的数据列,一般由结构化查询语言(SQL)运行,用于数据可靠完善至关重要的领域,比如说财政和运营。

对结构化数据库有一个重要假设,那就是查询数据时必须能得到一致且完善的结果。想一想谁绝对需要这样一种结构化数据库?对了,就是你的银行。它们存储账户信息、个人姓名、借款等等,必须随时分毫不差地知道你账户中的金额。

而另外一种则是非结构化数据库。情理之中,非结构化数据库是由数据专家们开拓的,因为数据专家眼中的数据与账户并不相同。数据专家不太在意查询结果绝对一致,他们更关注数据的灵活性。因此,非结构化数据在许多方面降低了对数据存储和查询的要求。

很多非结构化数据库是谷歌获得成功的直接产物。谷歌尝试把互联网存储在数据库中,其野心和工程之庞大可想而知。MapReduce是一种用于这种数据库的技术,虽然它一定程度上没有结构化查询语言 (SQL)那么强大,但是用户可以依据需要来调整和扩充它们的数据。MapReduce的数据使用甚至已经超出了谷歌的初始预期。比如现在谷歌可以在所有网站间查询,并根据网站之间的互相链接来调整搜索结果。这种可量化的灵活查询使谷歌获得了巨大的竞争优势,因此雅虎和其他公司以巨额投资来开发这种技术的开源版本,名叫Hadoop。

此外,非结构化数据库通常所需的储存空间通常更小。在过去数据存储十分昂贵,因此几年前,一些主要的互联网公司不得不每隔几个月就清空一次数据库。现在这种情况已难以想象了。

从强大的推荐引擎,到世界级的翻译系统,到令人难以置信的存货管理,都建立于这些数据之上。非结构化数据库一般来说没有结构化数据库那么精确,但对于许多应用(尤其是数据科学界),这个折衷是值得的。举例来说,比如你的非结构化数据库在100个机器上运行,但是其中有一个当机了。这时你仅用99台机器(而非100台)来决定向用户推荐观看一部特定的电影,也完全可行。这种类型的数据库看重灵活性,量化以及速度,哪怕不能随时保证完全精确。

还有一个更有名的例子。一个软件公司创建了一个基于Hadoop的非结构化数据库软件Cloudera。来看看它有多大的成长空间吧:7年前,我接到风投的电话,他们预期Cloudera在全球有10到15家公司的市场,去年Cloudera已获得了将近10亿美元的融资。

随着数据专家取代财务和会计,成为最主要的数据消费者,数据库将会越来越走进每一个人的生活 。

商业应用

十年前,没有人想过能把重要的商业数据存在云端,如见这却早已成为了现实。这也许是商业的IT基础结构的最大转变之处。

我在数据库生态系统中列出了四种主要的商业应用,分别是销售、营销、产品和消费者,每一种功能都有多种SaaS应用可供选择。SalesForce 应该是首先掀起这股趋势的并最先获得成功的。他们把软件开发的目标人群是终端用户(销售团队),而非单个的首席技术官。这对他们的用户十分有用,在此过程中,大家也能看到公司客户能够信任地把重要公司数据放在云端。

销售数据不再存在于用户自己安装的内部数据库,而是被放在云端,由致力于保证数据可用且稳定的云端公司提供服务。其他公司也纷纷效仿这种做法。如今基本上每个商业部门都有一个对应的数据应用。Marketo存储营销数据,MailChimp存储电子邮件,Optimizely存储A/B测试数据,Zendesk存储顾客满意度,诸如此类。

为什么这是相关的呢?如今每个商业部门都有强大的数据库,由数据专家分析并用于预测分析。数据量很大,却零散地分布在多个应用之中。比如说你在SugarCRM 中查看某个消费者的信息,但是当你想知道这名顾客的服务记录时,需要去ZenDesk中查看。而如果你想要知道他是否支付了最近的账单,则要去查Xero。所有的数据都被存放在不同的地点,网站和数据库中。

商业数据被转移到了云端,可以存放更多的数据了,但是这些数据被零散地存放在全世界的不同服务器的不同应用里。

第三方数据

第三方数据出现得比结构化和非结构化数据库都早得多。Dun & Bradstreet从1841年就开始卖数据了。随着数据对每个机构都愈发重要,这个领域也将会获得长足的发展。

在数据库生态系统图中,我大体把第三方数据分成四个领域,分别是商业信息数据,社交媒体数据,网页爬虫和公开数据。

商业信息数据开始最早。我上面提到了Dun & Broadstreet,商业数据购买对许多商业机构来说都至关重要。商业数据能回答所有B2B公司至关重要的问题:我们的销售团队该找谁谈?如今,这些数据更被扩展应用至网上地图和高频交易等领域。新创的数据卖方如Factual,不仅售卖商业数据,更倾向于从这些高盈利的新型领域起步。

社交媒体数据虽然是新兴产物,但发展很快。通过智能PR公司对社交媒体中的文本作情感分析,营销人员能够切实地了解到品牌热度与影响力,并有效评估品牌价值。你可以从Radian6 和DatSift里看到全部细节。

接下来我们来看看网络爬虫,我个人认为这是一个很有发展潜力的领域。如果能够把所有网站都作为数据源,由数据科学团队发展和分析,真不知道还有多少新型商业和技术会由此而生。如今从事网络爬虫的重要公司包括 import.io和kimono,我认为这个领域将在接下来几年呈现爆炸式的增长。

最后,当然还要提及公众数据。如果没有数据专家团队的支持, 不知道奥巴马总统是否还能够赢得2004年的大选,这可能也是后来奥巴马大力推动 Data.gov 的原因。许多地方政府也紧随其后。亚马逊网络服务 存放了许多惊人的公众数据,囊括从卫星图像到安然公司的邮件等各个方面。这些庞大的数据系列可以帮助扩大新型商业,训练更智能的算法,并解决许多实际问题。这个领域发展快速,甚至出现了 Enigma.io 这种专门帮助企业使用公众数据的公司。

本文作者:黄适文

来源:51CTO

时间: 2024-09-15 16:25:11

一张图搞懂美国大数据产业(上)的相关文章

一张图看懂北京大数据云计算发展计划

近日,北京市发布<北京市大数据和云计算发展行动计划(2016-2020年)>(以下简称<行动计划>).<行动计划>明确提出到2020年,北京市大数据和云计算创新发展体系基本建成,成为全国大数据和云计算创新中心.应用中心和产业高地的战略目标.       原文发布时间为:2016年7月6日

一张图让你知道大数据的生态系统

近几年来数据库的发展可以说是日新月异,而人们对结构化.非结构化.SQL.NoSQL以及NewSQL的理解也是远甚于过往.Matthew Aslett -- 451 Research的研发总监,动用各个领域的知识终于完成了数据库路线图的更新.新版本数据库路线图从London Underground和The Real Story中获取灵感,描绘了数据库领域中各种数据库的关系.下面来看一下Matthew Aslett的新作: 点击查看大图 对比一下Aslett最近发布于11月的版本: 点击查看大图 新

美国大数据产业地图和数据科学家必备工具-数据源

数据专家不能只生活在R语言或Excel表格里.他们需要工具来获得质量拔尖且可用于预测分析的数据.其实我觉得这正是统计学家和数据专家的区别所在.在我看来,统计学家 使用数据进行回归分析.而 数据专家 需要切实获取数据.进行回归分析.沟通结果.展示模式,并超越所在机构当时的局限,立足于制高点带领大家寻求切实可行的突破发展.鉴于他们需要统筹整个数据通道,我希望这个数据生态系统可以罗列出数据专家门常用的重要工具和使用方法,以及工具之间的交互联系. 第一部分:数据源 数据是整个数据生态系统的源头.总的来说

汪晓宇:如何破除中美大数据产业差距

文章讲的是汪晓宇:如何破除中美大数据产业差距,目前,大数据正掀起一场革命,"数据就是生产力"这个说法也正从"预言"变成现实. 无论是哪一个行业,都再也没有办法躲避这一浪潮.无论是分析传统的结构化数据,还是分析其他千奇百怪.内涵丰富的数据,比如来自社交媒体网站.各种客服渠道的海量非结构化信息,对企业而言,都将成为提高竞争力.盈利能力以及最重要的创新能力的关键. 但是,对于企业的CIO.CTO们来说,真正把数据转化为驱动企业发展的生产力,并非那么简单.在这一方面,中国在

河南大数据产业进入快车道

核心提示|大数据不仅能够迅速衍生为新兴信息产业,还可与电子商务.社交网络.智慧城市等新型商业应用深度融合,加速传统产业转型升级,信息时代里"大数据"已成为重要的战略资源. 今年2月国家发展改革委.工业和信息化部.中央网信办共同批复了贵州建设首个国家级大数据综合试验区.此后,河南.广东.安徽等诸多省份也都瞄准了大数据产业发展的战略机遇,纷纷加入了申建国家大数据综合试验区的行列. 近日,记者从省工业和信息化委获悉,河南申报建设国家大数据综合试验区的总体方案已经上报国家,正在等待审批,而未来

盐城发力大数据产业 今年力争实现百亿产出

国内大数据产业有望形成"西有贵阳,东有盐城"格局. "去年一年,盐城从零起步,实现了100多亿元投资,建起100多万平方米的产业园,引进100多个大数据产业项目."在16日举办的2016中国(盐城)大数据企业大会上,盐城市委书记朱克江介绍道,"今年我们力争要实现100亿元企业产出."当日下午,中科曙光.东汇集团.好百邻等22个大数据产业项目签约盐城大数据产业园. 事实上,盐城大数据产业的能量已不容小觑.目前,盐城市已规划建设了30平方公里的大数据

乌海市大力发展大数据产业 助推经济转型

日前,2016内蒙古大数据产业推介大会在北京举行,作为我国率先获批建设的大数据基础设施统筹发展类综合试验区,内蒙古国家大数据综合试验区当日正式启动.借被列为国家大数据综合试验区的春风,内蒙古蹄疾步稳地构筑支撑大数据产业发展的基础设施.数据资源.产业支撑.应用服务.制度保障和人才等支柱,奋力把大数据产业打造成驱动经济调结构.补短板和创新发展的新引擎. 乌海市作为内蒙古发展大数据产业的重要节点城市,近年来在发展大数据产业上积极探索,取得了可喜的成就.2013年1月,乌海市被国家有关部门列为国家智慧城

谷歌开源 Python Fire;一张图读懂 Python、R 的大数据应用等 | AI 开发者头条

▲ 内容预览: 谷歌开源 Python Fire NASA 发布 2017-2018 软件目录,供开发者免费使用 一张图看懂大数据中 R 语言的应用 一张图看懂大数据中 Python 的应用 每日推荐阅读 谷歌搜索技术分析,如何一步步实现"不止于关键词"? █ 谷歌开源 Python Fire 昨晚谷歌公布了新的 Python 工具包--Python Fire.它的功能很简单:能从任何 Python 代码生成命令行接口(CLI).开发者面对任意一个 Python 程序,仅需调用 Pyt

九张图读懂大数据医疗

人们都想选择个性化的健康医疗,为了实现这个目标,我们必须让大数据参与到破译和分析个人的所思.所需中.除了作为一个行业的流行语以外,大数据可以为医疗保健工作者和消费者带来怎样的成功呢? 下面的信息图是由Evariant公司建立的,这些图阐述了当大数据被有效地管理时将会带来的趋势和利益(Evariant是一家领先的为医院提供大数据服务的公司). 大数据为医疗保健行业带来了巨大的进步.在过去的几十年中,大数据已经深深地影响了每一个企业,包括医疗保健行业.如今,大量的数据可以让医疗保健更加高效,更加个性