大数据,小数据,哪道才是你的菜

美国著名科技历史学家梅尔文?克兰兹伯格(Melvin Kranzberg),曾提出过大名鼎鼎的科技六定律,其中第三条定律是这样的[1]:“技术是总是配“套”而来的,但这个“套”有大有小(Technology comes in packages, big and small)”。

这个定律用在当下,是非常应景的。因为,我们正步入一个“大数据(big data)”时代,但对于以往的“小数据(small data)”,我们能做到“事了拂衣去,深藏身与名”吗?答案显然不是。目前,大数据的前途似乎“星光灿烂”,但小数据的价值依然“风采无限”。克兰兹伯格的第三定律是告诉我们,新技术和老技术的自我革新演变,是交织在一起的。大数据和小数据,他们“配套而来”,共同勾画数据技术(Data Technology,DT)时代的未来。

对大数据的“溢美之词”,已被舍恩伯格教授、涂子沛先生等先行者及其追随者夸得泛滥成灾。但正如您所知,任何事情都有两面性。在众人都赞大数据很好的时候,我们也需说道说道大数据可能面临的陷阱,只是为了让大数据能走得更稳。当在大数据的光晕下,渐行渐远渐无小数据时,我们也聊聊小数据之美,为的是“大小并行,不可偏废”。大有大的好,小有小的妙,如同一桌菜,哪道才是你的爱?思量三番再下筷。

下文部分就是供读者“思量”的材料,主要分为4个部分:(1)哪个V才是大数据最重要的特征?在这一部分里,我们聊聊大数据的4V特征中,哪个V才是大数据最贴切的特征,这是整个文章的行文基础。(2)大数据的力量与陷阱。在这一部分,我们聊聊大数据整体的力量之美及可能面临的3个陷阱。(3)今日王谢堂前燕,暂未飞入百姓家,在这一部分,我们要说明,大数据虽然很火,但我们用数据发声,用事实说话,大数据真的没有那么普及,小数据目前还是主流。(4)你若安好,便是晴天。在这一部分,我们说说的小数据之美,如果用“n=all”来代表大数据,那么就可以用“n=me”来说明小数据(这里n表示数据大小),我们将会看到,小数据更是关系到我们的切身利益。

  1.哪个V才是大数据最重要的特征?

在谈及大数据时,人们通常用4V来描述其特征,即4个以V为首字母的英文:Volume(大量)、Variety(多样)、Velocity(速快)及Value(价值)。如果 “闲来无事”,我们非要对这4个V在“兵器谱”上排排名,哪个才是大数据的贴切的特征呢?下面我们简要地说道说道,力图说出点新意,分析的结果或许会出乎您的意料之外。

1.1 “大”有不同——Volume(大量)

首先我们来说说大数据的第一个V——Volume(大量)。虽然数据规模巨大且持续保持高速增长,通常作为大数据的第一个特征。但事实上,早在20年前,在当时的IT环境下,天文、气象、高能物理、基因工程等领域的科研数据量,已是这些领域无法承受的“体积”之痛,当时实时计算的难度不比现在小,因为那时的存储计算能力差,亦没有成熟的云计算架构和充分的计算资源。

况且,“大”本身就是一个相对的概念,数据的大与小,通常都打着很强的时代烙印。为了说明这个观点,让我们先回顾一下比尔?盖茨的经典“错误”预测。

图1 比尔盖茨于1981年对内存大小的预测

早在1981年,作为当时的IT精英,比尔?盖茨曾预测说,“640KB的内存对每个人都应该足够了(640KB ought to be enough for anybody)”。但30多年后的今天,很多人都会笑话盖茨,这么聪明的人,怎么会预测地如此不靠谱,现在随便一个智能手机(或笔记本电脑)的内存的大小都是4GB、8GB的。

但是,需要注意的事实是,在1981年,当时的个人计算机(PC)是基于英特尔CPU 8088芯片的,这种CPU是基于8/16位(bit)混合构架的处理器,因此,640KB已经是这类CPU所能支持的寻址空间的理论极限(64KB)的 10倍[2],换句话说,640K在当时是非常非常地庞大了!再回到现在,当前PC机的CPU基本都是64bit的,其理论支持的寻址空间是2^64,而现在的4G内存,仅仅是理论极限的(2^32)/(2^64)= 1/(2^32)而!。

在这里,讲这个小故事的原因在于,衡量数据大小,不能脱离时代背景,不能脱离行业特征。此外,大数据布道者舍恩伯格教授在其著作《大数据时代》中指出[3],大数据在某种程度上,可理解为“全数据(即n=all)”。有时,一个所谓的“全”数据库,并不需要有以TB/PB计的数据。在有些案例中,某个“全”数据库大小,可能还不如一张普通的仅有几个兆字节(MB)数码照片大,但相对于以前的“部分”数据,这个只有几个兆字节(MB)大小的“全”数据,就是大数据。故此,大数据之“大”,取义为相对意义,而非绝对意义。

这样看来,互联网巨头的PB级数据,可算是大数据,几个MB的全数据也可算是大数据,如此一来,大数据之“大”——“大”有不同,可大可小,如此不“靠谱”,反而不能算作大数据最贴切的特征。

1.2 数据共征——“Velocity(快速)”与“Value(价值)”

英特尔中国研究院院长吴甘沙先生曾指出,大数据的特征“Velocity(快速)”,犹如“天下武功,唯快不破”一样,要讲究个“快”字。为什么要“快”?因为时间就是金钱。如果说价值是分子,那么时间就是分母,分母越小,单位价值就越大。面临同样大的数据“矿山”,“挖矿”效率是竞争优势。

不过,青年学者周涛教授却认为[4],1秒钟算出来根本就不是大数据的特征,因为“算得越快越好”,是人类自打有计算这件事情以来,就没有变化过,而现在,却把它作为一个新时代的主要特征,完全是无稽之谈。笔者也更倾向于这个说法,把一个计算上的“通识”要求,算作一个新生事物的特征,确实欠妥。

类似不妥的还有大数据的另外一个特征——Value(价值)。事实上,“数据即价值”的价值观古来有之。例如,在《孙子兵法?始计篇》中,早就有这样的论断“多算胜,少算不胜,而况于无算乎?”此处 “算”,乃算筹也,也就是计数用的筹码,它讲得就是,如何利用数字,来估计各种因素,从而做出决策。

在马陵之战中,孙膑通过编造“齐军入魏地为十万灶,明日为五万灶,又明日为三万灶(史记·孙子吴起列传)”的数据,利用庞涓的数据分析习惯,反其道而用之,对庞涓实施诱杀。

话说还有一个关于林彪将军的段子(真假不可考),在辽沈战役中,林大将军通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例,以及俘虏和击毙的军官与士兵的比例“异常”,因此得出结论,敌人的指挥所就在附近!果不其然,通过追击从胡家窝棚逃走的那部分敌人,活捉国民党主帅新六军军长廖耀湘。

在战场上,数据的价值——就是辅助决策来获胜。还有一点值得注意的是,在上面的案例中,战场上的数据,神机妙算的军师们,都能“掐指一算”——这显然属于十足的小数据!但网上却流传有很多诸如“林彪也玩大数据”、“跟着林彪学习大数据”等类似的文章,这就纯属扯淡了。如果凡是有点数据分析思维的案例,都归属于大数据的话,那大数据的案例,古往今来,可真是数不胜数了。

因此,Value(价值)实在不能算是大数据专享的特征,“小数据”也是有价值的。在下文第4节的分析中,我们可以看到,小数据对个人而言,“价值”更是不容小觑。这样一来,如果大、小数据都有价值,何以“价值”成为大数据的特征呢?事实上,睿智的IBM,在对大数据的特征概括中,压根就没有“Value”这个V(如图2所示)。

图2 IBM公司给出的大数据3V特征

我们知道,所谓“特征”者,乃事物异于它物之特点”。打个比方,如果我们说“有鼻子有眼是男人的特征”,您可能就会觉得不妥:“难道女人就没有鼻子没有眼睛吗?”是的,“有鼻子有眼”是男人和女人的“共征”,而非“特征”。同样的道理,Velocity 和Value这两个V字头词汇,是大、小数据都能有的“共征”, 实在也不算不上是大数据最贴切的特征。

1.3五彩缤“纷”——Variety(多样)

通常认为,大数据的多样性(Variety),是指数据种类多样。其最简单的种类划分,莫过于分为两大类:结构化的数据和非结构化数据,现在“非结构化数据”占到整个数据比例的70%~80%。早期的非结构化数据,在企业数据的语境里,可以包括诸如电子邮件、文档、健康、医疗记录等非结构化文本。随着互联网和物联网(Internet of things,IoT)的快速发展,现在的非结构化数据又扩展到诸如网页、社交媒体、音频、视频、图片、感知数据等,这诠释了数据的形式多样性。

但倘若深究下去,就会发现,“非结构化”未必就是个成立的概念。在信息中,“结构化”是永存的。而所谓的“非结构化”,不过是某些结构尚未被人清晰的描述出来而已。美国IT咨询公司Alta Plana的高级数据分析师Seth Grimes曾在IT领域著名刊物《信息周刊》(Information Week)撰文指出:不存在所谓的非结构化,现在所说的“非结构化”,应该是非模型化(unmodeled),结构本在,只是人们处理数据的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如图3所示)。

图3 Seth Grimes:非结构化乎,不!应是非建模

大数据的多样性(Variety),还体现在数据质量的参差不齐上。换句话说,这个语境下的多样性就是混杂性(Messy),即数据里混有杂质(或称噪音)。大数据的混杂性,基本上是不可避免的,既可能是数据产生者在产生数据过程出现了问题,也可能是采集或存储过程存在问题。如果这些数据噪音是偶然的,那么在大数据中,它一定会被更多的正确数据淹没掉,这样就使得大数据具备一定的容错性;如果噪音存在规律性,那么在具备足够多的数据后,就有机会发现这个规律,从而可有规律的“清洗数据”,把噪音过滤掉。吴甘沙先生认为[15],多元抑制的数据,能够过滤噪声、去伪存真,即为辩讹。更多有关混杂性的精彩描述,读者还可批判性地参阅舍恩伯格教授的大著《大数据时代》[3]。

事实上,大数据的多样性(Variety),最重要的一面,还是表现在数据的来源多和用途多上。每一种数据来源,都有其一定的片面性和局限性,只有融合、集成多方面的数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。对同一个问题,不同的数据能提供互补信息,可对问题有更为深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。中国工程院李国杰院士认为[6],这非常类似于钱学森老先生提出的“大成智慧学”,“必集大成,才能得智慧”。

著名历史学家许倬云先生,站在历史的高度,也给出了自己的观点,他说“大数据”之所以能称之为“大数据”,就在于,其将各种分散的数据,彼此联系,由点而线,由线而面,由面而层次,以瞻见更完整的覆盖面,也更清楚地理解事物的本质和未来取向。

英国数学家及人类学家托马斯·克伦普(Thomas Crump)在其著作《数字人类学》The(Anthropology of Numbers)指出[7],数据的本质是人,分析数据就是在分析人类族群自身,数据背后一定要还原为人。东南大学知名哲学教授吕乃基先生认为[8],虽然每个数据来源因其单项而显得模糊,然而由“无限的模糊”所带来的聚焦成像,会比“有限的精确”更准确。“人是社会关系的总和(马克思语)”。 大数据利用自己的“多样性”,比以往任何时候都趋于揭示这样的“总和”。

因此,李国杰院士认为[6],数据的开放共享,提供了多种来源的数据融合机会,它不是锦上添花的事,而是决定大数据成败的必要前提。

从上分析可见,虽然大数据有很多特征(甚至有人整出个11个V来),但大数据的多样性(Variety),无疑它是区分以往小数据的最重要特征。

本文作者:张玉宏

来源:51CTO

时间: 2024-10-01 04:06:27

大数据,小数据,哪道才是你的菜的相关文章

大数据,小数据,哪道才是你的菜?

美国著名科技历史学家梅尔文•克兰兹伯格Melvin Kranzberg曾提出过大名鼎鼎的科技六定律其中第三条定律是这样的[1]"技术是总是配"套"而来的但这个"套"有大有小Technology comes in packages, big and small". 这个定律用在当下是非常应景的.因为我们正步入一个"大数据big data"时代但对于以往的"小数据small data"我们能做到"事了

大数据小数据,一天实现可视化分析

2014年7月24-25日,由iResearch艾瑞咨询集团主办的第九届艾瑞年度高峰会议在深圳华侨城洲际酒店成功举办.本届艾瑞峰会以"守正出奇·融合创新"为主题,汇集了来自互联网.新经济.科技相关行业的前沿公司领袖,共同诠释互联网行业守正出奇的变革路径, 寻找互联网企业融合创新的发展前景.       以下是永洪科技渠道副总裁王桐发表的以"大数据小数据,一天实现可视化分析 "为主题的演讲实录:             「王桐」:今天非常巧,前面两家公司都是我们永洪科

大数据大垃圾中的“小数据”价值

"所谓'小数据',并不是因为数据量小,而是通过海量数据分析找出真正能帮助用户做决策的客观依据,让其真正实现商业智能."日前,在线业务优化产品与服务提供商国双科技揭幕成立"国双数据中心",该公司高级副总裁续扬向记者表示,数据对企业决策运营越来越重要,大数据时代来临,企业最终需要的数据不是单纯意义上的大数据,而是通过海量数据挖掘用户特征获取的有价值的"小数据",进而使企业获取有价值的用户信息,科学地分析用户行为,帮助企业明确品牌定位.优化营销策略.

小数据大时代,数据革命迫在眉睫

"所谓'小数据',并不是因为数据量小,而是通过海量数据分析找出真正能帮助用户做决策的客观依据,让其真正实现商业智能."日前,在线业务优化产品与服务提供商国双科技揭幕成立"国双数据中心",该公司高级副总裁续扬向记者表示,数据对企业决策运营越来越重要,大数据时代来临,企业最终需要的数据不是单纯意义上的大数据,而是通过海量数据挖掘用户特征获取的有价值的"小数据",进而使企业获取有价值的用户信息,科学地分析用户行为,帮助企业明确品牌定位.优化营销策略.

磅:小数据大时代,数据革命迫在眉睫

演讲者:蔡凯龙,注册金融分析师(CFA), 金融风险管理师(FRM), 金融和计算机双硕士,金融博士生,互联网金融专家.现于德意志银行美国战略科技部,点石资产管理公司(DeStone Captial Management)的创始人合伙人兼任投资总监,曾任美国能源公司MXEnergy风控经理,担任休斯顿大学商学院金融系助理教授(Adjunct Professor),出国留学前在厦门开元期货当交易员.   主题概述: (一)小数据的介绍和定义 (二)小数据产生的原因 (1) 大数据对隐私无止境的侵犯

大数据到底能干嘛?小数据你造吗?

互联网思维.大数据无疑是现在互联网圈里最火,也是最能招人眼球的2个词语,但是,什么是互联网思维,什么是大数据,各家也有各家的看法,怎样能更好的利用大数据更是人们热议的话题,哪大数据到底是什么呢?有幸听到了中国著名的网络数据分析的专家,宋星老师 的演讲说道了大数据的未来! 一.大数据的形成 互联网精神是什么,是开放.创新!互联网精神促使了互联网的快速发展壮大,随之而来的就是互联网信息数据的大爆炸,使得信息离散程度扩大!未来大数据的发展方向:去技术化,就是通过技术手段让使用大数据的人感觉不到大数据的

大数据价值挖掘之道:人工智能成新宠

文章讲的是大数据价值挖掘之道:人工智能成新宠,人工智能自1943年诞生以来,在几十年的发展历程中经历了多次潮起潮落,人们却从未停止过对人工智能的研究与探索.而今年的AlphaGo人机大战又将人工智能推向了一个新的高潮,人工智能也已经从实验室逐步走向了商业化. 在互联网和移动互联网的新生态环境下,云计算.大数据.深度学习和人脑芯片等因素正在推动着人工智能的大发展.未来大数据将成为智能机器的基础,通过深度学习从海量数据中获取的内容,将赋予人工智能更多有价值的发现与洞察,而人工智能也将成为进一步挖掘大

大数据时代,小数据中心

文章讲的是大数据时代,小数据中心,中国(上海)国际数据中心技术设备展览会在上海隆重开幕.紧跟德国工业4.0的新趋势,威图(Rittal)携绿色.节能.可靠的数据中心系统解决方案登陆本次展会.在变革的大数据时代,威图(Rittal)将引领数据中心行业健康稳步发展. 展会现场,威图针对模拟的微模块.通道封闭系统,进行了实时监测,参观者可以通过液晶屏,直接了解数据中心内部各项指标信息.威图(Rittal)的微模块,它可根据客户需求在工厂进行预制,并可灵活拆卸,快速组装.威图(Rittal)的LCP机柜

大数据时代下小数据又被提起了

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp; 在本月新出版的一期CACM上又有两篇文章谈到小数据.大数据很热门,小数据也不可忽略,特别是对于个性化的医疗,小数据不可缺少.而且,小数据与大数据的研究是紧密联系在一起的. 大数据.智能设备谈得很多,譬如基因组学.蛋白质组学.代谢组学等等将要改变医学.但是,另一股力量要改变我们关于健康的想法和实践,那就是由个人数字跟踪驱动的小数据.考虑一类基于云的应用,随时间连续地.